KI-Halluzinationen: Mathematisch unvermeidbar
Künstliche Intelligenz halluziniert zwangsläufig. Neue Forschung zeigt: Das Problem ist fundamental – und liegt in der Art, wie wir KI bewerten.
Große Sprachmodelle wie ChatGPT geben regelmäßig falsche Antworten mit großer Überzeugung – ein Phänomen, das Fachleute als Halluzination bezeichnen. Eine neue Untersuchung von OpenAI liefert nun die bisher strengste mathematische Erklärung für dieses Problem. Die Nachricht ist ernüchternd: Halluzinationen lassen sich nicht einfach ausmerzen, sondern sind mathematisch unvermeidbar.
Selbst perfekte Trainingsdaten würden das Problem nicht lösen. Der Grund liegt in der Funktionsweise der künstlichen Intelligenz selbst.
Wie Fehler sich summieren
Künstliche Intelligenz erzeugt Antworten, indem sie Wort für Wort vorhersagt, prognostiziert – und dann die wahrscheinlichste Möglichkeit auswählt. Die OpenAI-Forscher beweisen, dass sich Fehler über diese sequenziellen Vorhersagen hinweg zwangsläufig summieren. Daher liegt die Fehlerrate beim Generieren von Sätzen mindestens doppelt so hoch wie bei einfachen Ja-Nein-Fragen.
Das Problem verschärft sich bei raren Informationen. Je seltener eine Tatsache in den Trainingsdaten vorkommt, desto wahrscheinlicher halluziniert die künstliche Intelligenz. Die Forscher testeten dies mit Geburtstagen bekannter Persönlichkeiten: Wenn 20 Prozent der Geburtstage nur einmal in den Trainingsdaten auftauchen, sollten Basismodelle mindestens 20 Prozent der Geburtstagsanfragen falsch beantworten.
Und tatsächlich: Als die Wissenschaftler das Spitzenmodell DeepSeek-V3 nach dem Geburtstag eines Kollegen fragten, nannte es in verschiedenen Versuchen drei unterschiedliche, falsche Daten.
Die Bewertungsfalle
Noch beunruhigender ist laut Science Alert die Analyse, warum Halluzinationen trotz nachgelagerter Maßnahmen hartnäckig bestehen bleiben. Das Problem liegt in der Art und Weise, wie künstliche Intelligenz bewertet wird.
Neun von zehn großen Benchmarks nutzen Bewertungssysteme, die null Punkte vergeben, wenn eine künstliche Intelligenz ihre Unsicherheit ausdrückt. Sagt ein System "Ich weiß es nicht", erhält es die gleiche Punktzahl wie für eine völlig falsche Auskunft.
Die Forscher beweisen dies mathematisch: Unabhängig davon, wie hoch die Chance ist, dass eine bestimmte Antwort richtig ist – der zu erwartende Punktwert fürs Raten liegt bei binärer Bewertung immer über dem für eine Enthaltung. Die optimale Strategie unter solcher Bewertung ist eindeutig: immer raten.
Ehrlichkeit wird bestraft
OpenAI spricht von einer "Epidemie" der Bestrafung ehrlicher Antworten. Die gängigen Genauigkeitsmetriken belohnen künstliche Intelligenz dafür, zu raten, statt Unsicherheit zuzugeben.
Ein konkretes Beispiel zeigt die SimpleQA-Evaluierung: Das Modell gpt-5-thinking-mini enthielt sich bei 52 Prozent der Fragen, erreichte 22 Prozent Genauigkeit und machte 26 Prozent Fehler. Das ältere o4-mini enthielt sich nur bei einem Prozent, erreichte 24 Prozent Genauigkeit – halluzinierte aber in 75 Prozent der Fälle.
Strategisches Raten bei Unsicherheit verbessert also die Genauigkeit minimal, erhöht aber die Halluzinationsrate dramatisch.
Warum bessere Trainingsdaten nicht helfen
Die Ursache liegt tiefer. Künstliche Intelligenz lernt durch Pretraining – einen Prozess, bei dem sie in riesigen Textmengen das nächste Wort vorhersagt. Anders als bei klassischen Lernproblemen gibt es keine "wahr/falsch"-Labels für jede Aussage.
Das Modell sieht nur positive Beispiele für flüssige Sprache. Konsistente Muster wie Rechtschreibung oder Klammern lernt künstliche Intelligenz zuverlässig. Beliebige, seltene Fakten – etwa Geburtstage – lassen sich jedoch nicht allein aus Mustern vorhersagen und führen daher zu Halluzinationen.
OpenAI erklärt: "Es ist doppelt schwer, gültige von ungültigen Aussagen zu unterscheiden, wenn es keinerlei als ungültig gekennzeichnete Beispiele gibt."
Die Lösung, die niemand will
Die Forscher schlagen vor, dass künstliche Intelligenz vor der Ausgabe ihre eigene Sicherheit berücksichtigt. Man könnte sie instruieren: "Antworte nur, wenn du dir zu mehr als 75 Prozent sicher bist, da Fehler mit drei Punkten bestraft werden, während richtige Antworten einen Punkt erhalten."
Unter solchen Bedingungen würden Systeme eher Unsicherheiten preisgeben, anstatt zu halluzinieren. Das Problem: Die Nutzerakzeptanz würde leiden. Würde ChatGPT schon bei 30 Prozent der Anfragen mit "Ich weiß es nicht" antworten, würden Nutzer das System vermutlich schnell verlassen.
Wei Xing von der Universität Sheffield schreibt in Science Alert: "Nutzer sind es gewohnt, selbstbewusste Antworten auf praktisch jede Frage zu erhalten."
Kosten gegen Qualität
Hinzu kommt ein wirtschaftliches Problem. Unsicherheitsbewusste künstliche Intelligenz erfordert deutlich mehr Rechenleistung, da sie mehrere mögliche Antworten bewerten und Konfidenzniveaus schätzen muss. Bei Systemen, die täglich Millionen Anfragen verarbeiten, bedeutet dies dramatisch höhere Betriebskosten.
In kritischen Bereichen wie Lieferkettenlogistik, Finanzhandel oder medizinischer Diagnostik lohnt sich der Aufwand. Die Kosten von Halluzinationen übersteigen dort die Ausgaben für unsicherheitsbewusste künstliche Intelligenz. Für Verbraucheranwendungen, die den Großteil der Entwicklung dominieren, bleibt das wirtschaftlich problematisch.
OpenAI räumt ein: "Auch ChatGPT halluziniert. GPT-5 halluziniert deutlich seltener, doch ganz vermeiden lässt es sich noch nicht."
Verbreitete Irrtümer
Die OpenAI-Forscher widerlegen mehrere gängige Annahmen über künstliche Intelligenz: Die Genauigkeit wird nie 100 Prozent erreichen, weil manche Fragen aus der realen Welt grundsätzlich unbeantwortbar sind. Halluzinationen sind nicht unvermeidlich – künstliche Intelligenz kann sich enthalten, wenn sie unsicher ist.
Kalibrierung, also das richtige Einschätzen von Unsicherheit, erfordert laut OpenAI weniger Rechenaufwand als "genau sein". Für ein kleines Modell könne es sogar leichter sein, seine Grenzen zu kennen.
Die Lösung liegt in der Reform der Bewertungsmetriken. Solange die wichtigsten Leaderboards künstliche Intelligenz für Glückstreffer belohnen, werden Modelle weiter lernen zu raten. Erst wenn Fehler stärker bestraft werden als Enthaltungen und Unsicherheitsangaben anerkannt werden, können Halluzinationen reduziert werden.
Science Alert zieht ein ernüchterndes Fazit: "Die geschäftlichen Anreize, die die Entwicklung von Verbraucher-KI vorantreiben, bleiben fundamental nicht mit der Reduzierung von Halluzinationen vereinbar. Bis sich diese Anreize ändern, werden Halluzinationen bestehen bleiben."