Auf dem Vectara-Benchmark für Zusammenfassungsaufgaben ist die Halluzinationsrate der besten Sprachmodelle von rund 20 Prozent im Jahr 2023 auf weniger als ein Prozent gesunken. OpenAI gibt für GPT-5 eine um 45 Prozent geringere Wahrscheinlichkeit für faktische Fehler gegenüber GPT-4o an. Google, Anthropic und andere Anbieter berichten ähnliche Verbesserungen bei ihren aktuellen Modellen. Das Problem ist deutlich kleiner geworden, aber gelöst ist es nicht.
Die wichtigste Frage lautet nicht mehr nur, welches Modell das beste ist, sondern vor allem, wie man ein Modell dazu bringt, innerhalb belastbarer Grenzen zu arbeiten. Halluzinationen sind selten bloß eine Laune der Maschine, sondern entstehen oft dann, wenn die Aufgabe zu offen formuliert ist, wenn Quellen fehlen, wenn zu viel irrelevanter Kontext in den Prompt geschoben wird oder wenn das Modell für etwas eingesetzt wird, wofür eigentlich Suche, Dokumentenabruf oder ein klarer Prüfprozess nötig wären. Die Qualität der Ergebnisse hängt heute daher weniger am Markenlogo des Modells als an der Disziplin, mit der Anwender Prompt, Kontext, Werkzeuge und Kontrolle organisieren.
