Wenn die Recherche zu früh aufhört – Halluzinationen als strukturelles KI-Problem

Die Diskussion über Künstliche Intelligenz in der Anwaltschaft kreist meist um ein Schreckbild: die frei erfundene Gerichtsentscheidung im Schriftsatz. Das Bild ist berechtigt, aber es greift zu kurz. Wer Halluzinationen für einen vorübergehenden Kinderkrankheits-Effekt hält, der sich mit der nächsten Modellgeneration oder dem richtigen Werkzeug erledigt, unterschätzt das Problem. Halluzinationen sind kein Bug, der wegprogrammiert wird. Sie sind eine strukturelle Eigenschaft der zugrundeliegenden Technik – und die gefährlichste Spielart ist nicht die erfundene Quelle, sondern die Recherche, die zu früh aufhört. Dieser Beitrag erklärt, warum das so ist, und welche Konsequenzen sich daraus für die tägliche Arbeit ergeben.

Drei Gerichte, dieselbe Lehre

Die Fälle sind keine Anekdoten mehr. Das LG Frankfurt am Main stellte in einem Beschluss vom 25.09.2025 (2-13 S 56/24) fest, dass ein Klägervertreter zur Streitwertbegründung mehrere in Anführungszeichen gesetzte, angeblich wörtliche BGH-Zitate vorgelegt hatte, deren Fundstelle, Datum und Aktenzeichen sämtlich nicht existierten. Die Kammer sprach von einer „kompletten Fälschung" und äußerte die Hoffnung, diese stamme nicht vom Anwalt selbst, sondern sei von einem Chatbot halluziniert worden.

Bereits am 02.07.2025 hatte das AG Köln (312 F 130/25) einen Schriftsatz beanstandet, in dem ab einer bestimmten Seite sämtliche Fundstellen – Urteile, Randziffern, Literaturstellen – erfunden waren; unter anderem wurde ein Kommentar einem falschen Autor zugeschrieben und ein nicht existierender Fachaufsatz angeführt. Und schon das OLG Celle hatte sich mit Beschluss vom 29.04.2025 (5 U 1/25) mit dem Phänomen befasst. Drei Instanzgerichte innerhalb weniger Monate – das ist kein Ausreißer, sondern ein Muster.

International ist die Lage drastischer. Der Jurist Damien Charlotin führt eine öffentlich zugängliche Datenbank dokumentierter Fälle; sie zählt mittlerweile über 1.600 Fälle weltweit, allein aus den USA über 1.400. Dass in Deutschland bislang nur wenige Fälle öffentlich wurden, ist dabei kein Grund zur Beruhigung: Angesichts der hierzulande ohnehin spärlichen Urteilsveröffentlichung ist die Wahrscheinlichkeit hoch, dass unentdeckte Fälle die bekannten bei weitem übersteigen.

Warum kein Werkzeug das Problem beseitigt

Die naheliegende Hoffnung lautet: Bessere, speziell für den Rechtsmarkt gebaute Systeme lösen das. Sie tun es nicht – sie verkleinern das Problem nur. Das lässt sich belegen.

Ein allgemeines Sprachmodell ohne Anbindung an eine Datenbank halluziniert bei juristischen Fragen nach einer vielzitierten Untersuchung zwischen 58 und 88 Prozent der Anfragen. Der gängige Lösungsansatz heißt RAG (Retrieval-Augmented Generation): Vor die Texterzeugung wird ein Suchschritt geschaltet, der echte Dokumente aus einer Datenbank abruft und dem Modell vorlegt. Das senkt die Fehlerrate erheblich. Aber eine Stanford-Untersuchung der führenden kommerziellen Legal-RAG-Systeme – also der teuersten, eigens für Juristen entwickelten Produkte – fand selbst dort erhebliche Fehlerquoten: beim besten getesteten System (Lexis+ AI) noch immer 17 Prozent, beim Marktbegleiter Westlaw AI bereits 33 Prozent. Im Schnitt jede dritte Antwort.

Der Grund liegt tiefer als in der Produktqualität. Ein Sprachmodell erzeugt Text, indem es Wort für Wort die wahrscheinlichste Fortsetzung vorhersagt. Es besitzt keinen inneren Begriff von „wahr" oder „falsch". Eine theoretische Arbeit hat sogar gezeigt, dass kalibrierte Sprachmodelle bei seltenen Fakten mit einer gewissen Rate halluzinieren müssen – unabhängig von Architektur, Trainingsdaten oder Größe. Das ist der entscheidende Punkt: Die Halluzination ist der Mechanik inhärent, nicht ein behebbarer Defekt.

Modellentwicklung: Fortschritt mit struktureller Untergrenze

Die Geschichte der KI-Sprachmodelle ist zugleich eine Geschichte stetiger Verbesserung. Die ersten weit verbreiteten Modelle – GPT-3.5, frühe Llama-Versionen – lagen bei juristischen Fragen auf 69 beziehungsweise 88 Prozent Fehlerrate. Neuere Architekturen haben das erheblich verbessert. Anthropic hat bei seinen Opus-Modellen das Thema Halluzination strukturell angegangen: Extended Thinking – ein explizit gemachter Reasoning-Schritt vor der finalen Antwort – halbiert die Fehlerrate in kontrollierten Tests; Claude Opus 4 kommt dabei auf rund fünf Prozent statt zuvor rund neun Prozent. Andere Anbieter verfolgen ähnliche Ansätze.

Aber diese Fortschritte treffen auf die oben beschriebene theoretische Untergrenze. Bei seltenen Fakten – und das juristisch Relevante ist oft eben das Seltene: das Spezialurteil, die Mindermeinung, die neueste Revision – liegt die strukturelle Schwäche des Modells genau dort, wo es am meisten gebraucht wird.

RAG verschiebt das Problem, löst es nicht

RAG ersetzt die erfundene Fundstelle weitgehend durch eine subtilere Fehlerklasse. Das System ruft das richtige Urteil ab und gibt seinen Inhalt dennoch falsch wieder. Die Fundstelle existiert, ist prüfbar, das Aktenzeichen stimmt – nur die Aussage, die ihr zugeschrieben wird, trifft nicht zu.

Die gefährlichste Spielart dieses Fehlertyps ist die Fehlzuordnung: Das System ruft das richtige Urteil ab, Aktenzeichen, Gericht und Datum stimmen – aber die Aussage, die es dem Urteil zuschreibt, steht dort nicht. Sie klingt juristisch korrekt und ist inhaltlich plausibel; sie stammt nur nicht aus dem abgerufenen Dokument, sondern aus dem parametrischen Gedächtnis des Modells, das eine „passende" Formulierung ergänzt. Ein existierendes Aktenzeichen schwächt jeden Verifikationsreflex ab: Der Prüfer findet die Entscheidung, liest einen Leitsatz – und geht weiter. Die Abweichung liegt im Volltext, den niemand mehr aufgeschlagen hat.

Hinzu kommt ein Zuverlässigkeitsproblem, das selten offen benannt wird: RAG arbeitet probabilistisch. Der Retrieval-Schritt ist keine deterministische Funktion, die bei jeder Anfrage garantiert ausgeführt wird. Untersuchungen zum Zitierverhalten in RAG-Systemen fanden, dass bis zu 57 Prozent aller Quellenangaben „post-rationalisiert" sind: Das Modell formuliert die Antwort aus seinem Training heraus und fügt nachträglich eine Quelle hinzu, die plausibel wirkt – der Retrieval-Schritt war kausal nicht beteiligt. Das Ergebnis sieht wie eine verankerte Antwort aus, ist aber eine halluzinierte Antwort mit gut kaschierter Herkunft.

Dieses Problem setzt sich fort, wenn man KI-Systemen Verifikationsanweisungen gibt. Eine Instruktion, vor jeder Antwort Quellen zu prüfen, ist selbst probabilistisch: Das Modell folgt ihr meistens, nicht immer. Je länger die Sitzung und je mehr Text sich im Kontext angesammelt hat, desto stärker kann eine früh gesetzte Anweisung an Gewicht verlieren. Das erste Zitat einer langen Antwort kann sauber verifiziert sein, das zwanzigste nicht mehr – und die korrekt geprüften Stellen stiften das Vertrauen, das die ungeprüften mittragen.

Auch die Abgrenzung zur überholten Entscheidung bleibt: Ein korrekt abgerufenes, aber durch neuere Rechtsprechung überholtes Urteil ist formal echt und inhaltlich im Originalkontext sogar richtig – und trotzdem als geltendes Recht falsch.

Der eigentliche Defekt: die Recherche hört beim ersten Treffer auf

Damit zum gefährlichsten, weil unsichtbaren Mechanismus. Bisher ging es um Fehler der Erzeugung – das System produziert etwas Falsches. Der schwerwiegendere Fehler ist einer der Vollständigkeit: Das System hört zu früh auf zu suchen.

Ein halluziniertes Urteil lässt sich durch Nachschlagen entlarven. Ein nicht gefundenes Gegenurteil hinterlässt keine Spur. Im fertigen Schriftsatz steht dann nichts Falsches – es fehlt nur das, was die eigene Position erschüttert hätte. Der Schaden zeigt sich erst, wenn die Gegenseite oder das Gericht die entgegenstehende Linie zitiert. Dieser Fehler hat zwei Wurzeln, die sich gegenseitig verstärken.

Erstens die Suchrichtung. Ein Rechercheagent, der mit einer These startet, formuliert seine Suchanfragen aus dieser These heraus. Er sucht Bestätigung, weil die Frage bereits bestätigungsförmig gestellt ist. Was er nicht sucht, findet er nicht. Es ist die maschinelle Entsprechung des Confirmation Bias – nur ohne das menschliche Korrektiv des Zweifels.

Zweitens die Abbruchbedingung. Ein Agent, der ein passendes Urteil gefunden hat, betrachtet seine Aufgabe als erfüllt. Belohnt wird das Finden einer Antwort, nicht das Ausschöpfen aller relevanten Entscheidungen. Der Treffer ist das Stoppsignal. Genau dort hört die Maschine auf, wo der sorgfältige Anwalt erst anfinge – bei der Frage: Und was spricht dagegen?

Der Frankfurter Beschluss liefert für diesen Mechanismus einen verblüffenden Beleg. Die Kammer prüfte selbst nach und stellte fest, dass gängige – auch juristische – Chatbots bei einer neutralen Abfrage stets die korrekte Rechtsauffassung ausgaben, und zwar selbst dann, wenn ausdrücklich nach Belegen für die Gegenauffassung gefragt wurde. Die Technik hätte es also richtig gewusst. Der Fehler entstand nicht, weil das System unfähig war, sondern weil bestätigungsorientiert gefragt wurde. Das ist ein starkes Indiz: Nicht das Modell versagte, sondern die Richtung der Recherche.

Die naheliegende Lösung – und ihre Grenze

Die methodisch saubere Antwort auf die erste Wurzel ist die adversariale Recherche: zwei Agenten, parallel, mit entgegengesetztem Auftrag. Einer sucht die Belege für die eigene Position, der andere sucht gezielt das, was dagegenspricht. Das erzwingt strukturell, was ein einzelner Agent nicht leistet – die Gegenrecherche. Im Kern ist das die maschinelle Nachbildung eines im Recht ohnehin tragenden Prinzips: These und Antithese, Argument und Gegenargument.

Doch die Lösung erbt das Grundproblem eine Ebene tiefer. Auch der Gegen-Agent unterliegt derselben Abbruchbedingung wie der Pro-Agent: Findet er ein Gegenurteil, hört möglicherweise auch er auf – und übersieht das zweite, das die Gegenposition erst trägt, oder die Entscheidung, die die ursprüngliche Position rehabilitiert. Man hat die Bestätigungssuche verdoppelt und gegeneinandergestellt, aber innerhalb jedes Agenten bleibt die Frage offen: Sucht er den Raum aus oder stoppt er beim ersten Fund? Die Parallelisierung adressiert die Richtung der Suche, nicht ihre Tiefe.

Daraus folgt eine ernüchternde, aber ehrliche Einsicht: Es gibt keinen Punkt, an dem man sagen kann, das Problem sei behoben. Jede Schutzschicht verkleinert das Risiko, keine eliminiert es. Die Abbruchbedingung lässt sich mildern – etwa indem man den Agenten nicht auf „finde ein Urteil" trimmt, sondern auf „kartiere die Rechtsprechungslandschaft einschließlich der Gegenlinien", und indem man Vollständigkeit statt Treffer belohnt. Aber die Letztkontrolle, ob der Suchraum wirklich ausgeschöpft ist, kann keine Schicht abnehmen. Die Maschine weiß nicht, was sie nicht gefunden hat. Der Anwalt muss wissen, wonach noch zu fragen wäre.

Eine Rangfolge der Schutzwirkung

Für die Praxis lässt sich der Befund in eine Hierarchie ordnen – von der schwächsten zur robustesten Absicherung:

Das nackte Sprachmodell ohne Datenanbindung ist für juristische Recherche unbrauchbar (Halluzinationsrate 58 bis 88 Prozent).
RAG auf offener Datenbasis senkt die Rate deutlich, kann aber das falsche oder überholte Dokument abrufen.
RAG auf verifizierter, geschlossener Datenbank – etwa die KI-Angebote der etablierten Fachverlage – reduziert die erfundene Fundstelle stark, lässt aber die inhaltliche Falschwiedergabe bestehen. Die besten getesteten Systeme kommen auf 17 Prozent Fehlerrate, der Marktschnitt liegt deutlich darüber.
Die externe, nachgelagerte Verifikation – der deterministische Abgleich jedes Zitats gegen die echte Quelle, nach der Texterzeugung – ist die robusteste Schicht, weil sie das probabilistische System verlässt und nicht mit der Gesprächslänge nachlässt.

Ein praktischer Zusatzpunkt zur letzten Schicht: Schutzanweisungen, die im System selbst stecken – ein interner Prüf-Befehl, eine Verifikationsroutine – sind ihrerseits probabilistisch und können nachlassen. Je länger eine Arbeitssitzung dauert und je mehr Text sich ansammelt, desto stärker verliert eine zu Beginn gesetzte Anweisung an Gewicht. Es kann sogar geschehen, dass die ersten Zitate einer Antwort sauber geprüft werden und spätere nicht – wodurch die echten Zitate das Vertrauen stiften, das die ungeprüften mittragen. Verlässlicher Schutz liegt deshalb außerhalb des Modells, in fester, nachgeschalteter Infrastruktur.

Die berufsrechtliche Konsequenz

Der rechtliche Rahmen ist eindeutig und durch die genannten Beschlüsse bestätigt. BRAK und DAV haben klargestellt, dass in KI-generierte Arbeitsprodukte kein Grundvertrauen gesetzt werden darf, wie man es einem langjährigen, erfahrenen Mitarbeiter entgegenbringt. Der DAV verlangt, dass alle Belegstellen vollständig zu prüfen sind – selbst ohne konkreten Halluzinationsverdacht. Das LG Frankfurt verwies ergänzend auf das Sachlichkeitsgebot des § 43a Abs. 3 BRAO und den Schaden für die Rechtspflege, wenn das Gericht den Zitaten eines Anwalts nicht mehr vertrauen kann. Berufsrechtlich trägt daneben die allgemeine Sorgfaltspflicht nach § 43 BRAO: Sie greift unabhängig von Vorsatz, weil der Anwalt die Qualität seiner Arbeitsprodukte zu verantworten hat – gleich mit welchem Werkzeug sie entstanden sind.

Ein deutscher Sonderaspekt verdient Beachtung: Anders als in den USA, wo Gerichte unmittelbar im Verfahren Geldsanktionen verhängen, erfolgt die Ahndung hierzulande nachgelagert über das Berufs- und Strafrecht. Ein versuchter Prozessbetrug durch erfundene Rechtsquellen wird überwiegend als zur Täuschung des Gerichts objektiv ungeeignet angesehen – nach dem Grundsatz iura novit curia kennt das Gericht das Recht selbst. Die eigentliche Gefahr liegt damit weniger in der prozessualen Sanktion als im berufsrechtlichen Nachspiel, im Reputationsschaden und in der Haftung gegenüber dem Mandanten, wenn ein auf Halluzination gestützter oder durch eine unvollständige Recherche geschwächter Schriftsatz den Prozess verliert.

Fazit

KI ist für die anwaltliche Arbeit ein mächtiges Werkzeug, und der Verzicht darauf ist keine ernsthafte Option mehr. Aber die Technik trägt einen Defekt in sich, der sich nicht wegrüsten lässt: Sie erzeugt Plausibilität, nicht Wahrheit – und Plausibilität ist bei einer Halluzination kein Wahrheitssignal, sondern ihre Tarnung. Das gilt für die erfundene Fundstelle ebenso wie für das existierende Urteil, dem eine Aussage zugeschrieben wird, die es nicht enthält, und für die Recherche, die beim ersten passenden Treffer stehenbleibt. Bessere Modelle, RAG und Verifikationsschichten verkleinern das Risiko Stufe um Stufe, aber keine Stufe bringt es auf null. Der einzige Punkt, an dem die Kette zuverlässig schließt, ist die juristische Urteilskraft des Menschen, der die Seite unterschreibt. Diese Verantwortung ist nicht delegierbar – und wird es technisch auf absehbare Zeit auch nicht.

Dieser Artikel ist Teil der KI-Serie der Kanzlei Koch, Schatz & Kollegen. Eine persönlichere Einführung in das Thema — was Halluzinationen sind, warum sie so überzeugend klingen, und was das für Haftung und Datenschutz bedeutet — bietet Artikel 3 der Serie: „Wenn KI erfindet — und dabei völlig überzeugt klingt".

Hinweis zu den Fundstellen: Die zitierten Entscheidungen (LG Frankfurt a. M., 25.09.2025 – 2-13 S 56/24; AG Köln, 02.07.2025 – 312 F 130/25; OLG Celle, 29.04.2025 – 5 U 1/25) wurden über dejure.org verifiziert. Die empirischen Angaben zu Halluzinationsraten stammen aus Dahl u. a. (2024) sowie Magesh u. a. (Stanford, 2024). Die Angaben zu post-rationalisierten Quellenangaben beruhen auf arXiv 2412.18004 (2024). Zahlen zur Charlotin-Datenbank: Stand Juni 2026.