Vermessung des Denkens: Open AI will Intelligenz verkaufen – aber niemand weiß, wie man sie misst

„Wir sehen eine Zukunft, in der Intelligenz wie Strom oder Wasser ist und man sie am Zähler gemessen bei uns kauft.“ Mit dieser Aussage erstaunte Sam Altman die Chefs von Amerikas größten Infrastruktur-Unternehmen. Denn eigentlich sitzt er einer Firma vor, die viel verbraucht. Das Training der KI-Modelle von Open AI braucht viele Computer und damit Strom und Wasser. Doch auf dem Infrastruktur-Gipfel erklärte Altman seine Firma nicht nur als Nutzer. Er sieht sie als eigenes Infrastruktur-Unternehmen. Aber wie ihr Hauptprodukt gemessen wird, ist noch unklar. Stromverbrauch wird in Kilowattstunden gemessen, und Wasser in Litern. Aber Intelligenz ist nicht greifbar. Ein Zuviel brennt nicht die Lampe durch, und ein Zuwenig tröpfelt nicht aus dem Duschkopf. Stattdessen messen wir Intelligenz eigentlich nur, indem wir Effekte betrachten. Gute Noten oder Erfolg gelten als Zeichen für Intelligenz. Aber sie sind bestenfalls Produkte von Intelligenz anstatt einer direkten Maßeinheit. Tokens als feuchte Munition der Intelligenz Die KI-Industrie hat dabei eine Maßeinheit gefunden, die sie einfach abrechnen kann: den Token. Der Nutzer zahlt für die Wortbruchteile, die ein Modell aufnimmt und produziert. Die Menge an Tokens ist dabei aber so aussagekräftig wie die Anzahl verschossener Patronen als Maß für den Erfolg einer militärischen Mission. Mehr ist sicherlich nicht gleich besser. Munition kann ihr Ziel verfehlen oder sogar feucht sein und gar nicht zünden. Für den Hersteller ist es in jedem Fall besser, wenn mehr gekauft wird. Die Modellhersteller garantieren also mit öffentlichen Tests die Qualität ihrer Modelle. Standardisiert werden die Modelle verglichen, wie sie Matheaufgaben lösen oder Fragen beantworten. Doch damit stehen die Hersteller wieder am Anfang. Erneut wird ein Ergebnis gemessen, und nicht eine Fähigkeit an sich. Der Unterschied mag technisch klingen. Aber wann immer ein Ergebnis zu einem Maßstab wird, wird es bedeutungslos. So postulierte es der Ökonom Charles Goodhart in 1975. Und so haben es Forscher für LLMs bewiesen. Denn bei den wichtigsten öffentlichen Tests wollen die großen KI-Hersteller natürlich gut abschneiden. Um das sicherzustellen, haben sie auch nichts dagegen, einmal einen Blick ins Notizheft des Lehrers zu werfen und zu gucken, was in der nächsten Prüfung gefragt wird. So haben einige große Hersteller wie Meta ihre Modelle gegen den beliebtesten Test gestellt, aber schlechte Ergebnisse nie veröffentlicht. Stattdessen optimierten sie ihre Modelle so lange gegen den Test, bis sie einen Erfolg verkünden konnten. Ein Konsortium von Forschern der großen US-Universitäten zeigte auf, dass man mit diesen Tricks die Noten von Modellen in öffentlichen Tests mehr als verdoppeln kann. Aber ob die Modelle dadurch tatsächlich fähiger werden, ist zweifelhaft. Schulkinder gegen KI beim Intelligenztest Diese Beobachtung machte auch der französische KI-Wissenschaftler François Chollet, welcher einige der bekanntesten Bücher zu KI veröffentlichte. In einem kurzen Aufsatz im Jahr 2019 legte er dar, dass Testkompetenz durch spezialisierte Trainingsdaten erreicht werden kann. Ohne dass dabei die Systeme lernen, über ihr Wissen generalisiert zu denken. Chollets Definition von Intelligenz ist eine direkte Herausforderung für die gesamte Branche. Er betrachtet Intelligenz als die Lösung neuer Aufgaben. Wer also schneller eine neue Herausforderung meistert, ist klüger. Und die Modelle schneiden bisher schlecht ab. In seinem Arc-Test müssen die Modelle visuelle Rätsel lösen. Es gilt, ein Muster aus Farben in einem Gitter aus wenigen Beispielen abzuleiten und dann das Muster auf einen neuen Fall anzuwenden. Anders als bei vielen Tests gibt es kein Auswendiglernen. Es werden nur Mustererkennung, Synthese und Transfer getestet. Für Menschen sind die Aufgaben trivial. Aber selbst die besten KI-Modelle erreichten im Jahr 2025 nur 24 Prozent der möglichen Punktzahl. Eine Maßeinheit ist auch ein Ziel Dabei wäre eine bessere Maßeinheit von Intelligenz nicht nur für die Rechnungsstellung wichtig. Sie wäre auch die Grundlage für eine gezieltere Entwicklung Künstlicher Intelligenz. Die leistungsfähigsten Modelle nutzen heute Reinforcement Learning. Das Modell gibt Antworten und erhält Noten für diese Antworten. Bei guten Noten wird eine Antwort mehr zum Vorbild für die Zukunft. Bei schlechten umgekehrt. So lernt das Modell, was erwünscht ist. Was die Noten messen, entscheidet also darüber, was das Modell lernt. Bislang werden meist nur Endergebnisse bewertet: Die Antwort ist richtig oder falsch. Das führt zu einem grundlegenden Problem: Fehler in Zwischenschritten können nicht lokalisiert oder korrigiert werden. Ein Modell, das durch Zufall über die richtige Antwort stolpert, bekommt dieselbe Belohnung wie eines, das einen sauberen Gedankengang entwickelt hat. Forscher arbeiten deshalb an sogenannten Process Reward Models — Bewertungssystemen, die nicht das Ergebnis, sondern jeden einzelnen Denkschritt auf dem Weg dorthin beurteilen. Der Ansatz ist vielversprechend, aber noch weit von einer universellen Maßeinheit entfernt. Aber auch hier lauert Goodharts Gesetz. Denn eine Maßeinheit ist immer auch ein Ziel. Sobald ein Modell darauf trainiert wird, bei Process Reward Models gut abzuschneiden, lernt es nicht zwingend, besser zu denken. Stattdessen lernt es, Denkschritte zu produzieren, die gut aussehen. Forscher haben bereits festgestellt, dass Modelle regelmäßig zur richtigen Antwort gelangen, obwohl ihre Zwischenschritte fehlerhaft sind. Wie wichtig die einzelnen Denkschritte überhaupt sind, ist noch unklar. Das Messproblem verschiebt sich also, aber es verschwindet nicht. Was daher am Ende auf Altmans Zähler stehen wird, bleibt offen. Und es ist nicht nur eine Frage der Rechnungsstellung. Sondern sie entscheidet auch, was die Industrie als Nächstes baut.

Vermessung des Denkens: Open AI will Intelligenz verkaufen – aber niemand weiß, wie man sie misst

Bisher hat die KI-Branche keine klare Definition davon, was sie verkaufen will. Über die Maßeinheit der Intelligenz, und warum sie über die Zukunft der KI entscheidet.