
Aktuelle KI-Modelle wie ChatGPT überschätzen die strategische Denkfähigkeit von Menschen. Sie billigten Menschen ein höheres Maß an logischem Denken zu, als tatsächlich vorhanden ist, erläutern die Forschenden der HSE University in Moskau. Aus ihrer Studie geht hervor, dass die KI in einem Logikspiel von Menschen durchdachte Entscheidungen erwartet. Da diese aber oft spontan oder emotional entscheiden, geht die Strategie der Sprachmodelle nicht auf und sie verlieren gegen ihre menschlichen Gegner.
Das Team um Dmitry Dagaev bezog fünf führende KI-Modelle wie ChatGPT-4o und Claude-Sonnet-4 in ein klassisches Experiment aus der Wirtschaftsforschung zum Veranschaulichen menschlicher Entscheidungen etwa an der Börse ein. Gespielt wurde „Guess the Number“. Dabei müssen die Teilnehmer eine Zahl zwischen 0 und 100 wählen. Es gewinnt, wer am nächsten an zwei Dritteln des Durchschnitts aller gewählten Zahlen liegt.
Menschen landen bei solchen Tests oft bei Werten um die 20 oder darüber. Zudem geben manche Teilnehmer gerne mal an, gar nicht erst den Versuch gemacht zu haben, durch rationale Analyse die mutmaßliche Gewinnzahl zu ermitteln. Sie wählten stattdessen Geburtstage oder Lieblingszahlen.
Könnte sie es, würde sich eine KI vermutlich an den Kopf fassen ob so viel menschlicher Unlogik. Denn eigentlich sollten Teilnehmer ihre Intelligenz auf die Frage verwenden, welche Meinungen die meisten Leute über die Meinungen der meisten Leute haben. Würden alle Teilnehmer vollkommen rational denken, wäre die von allen angegebene Zahl die Null.
Würden alle Spieler völlig zufällig und gedankenlos eine Zahl wählen, läge der Durchschnitt bei etwa 50 – und die Siegerlösung für die zu nennenden zwei Drittel des Durchschnitts würde ungefähr 33,3 lauten. Denken alle anderen in einer ersten Stufe zumindest schon mal an die 50 als wahrscheinlichen Mittelwert, wählen also die 33,3 als Wert für die zwei Drittel. Liegt der Durchschnitt der angegebenen Werte aber bei ungefähr 33,3, ist ein Wert von etwa 22,2 der für den Sieg. Angenommen, alle antizipieren das in einer weiteren Denkstufe, würden sie wiederum die 22,2 wählen – und der Siegerwert läge bei nur noch etwa 14,8. Bei perfekter Rationalität setzt sich das Denken „Was denke ich, dass die anderen denken, dass die anderen denken…?“ unendlich fort, der Durchschnitt sinkt immer mehr gegen null.
Die getesteten KI-Modelle erhielten neben der Anleitung für das Spiel eine Beschreibung ihrer menschlichen Mitspieler, darunter Wirtschaftsstudenten im ersten Jahr, Teilnehmer akademischer Konferenzen, Personen mit analytischem oder intuitivem Denkvermögen sowie solche, die Emotionen wie Wut oder Traurigkeit empfanden. Insgesamt wurden 16 Testreihen aus früheren Studien simuliert. Das Modell wurde jeweils gebeten, eine Zahl auszuwählen und seine Überlegungen zu erläutern.
Das im Journal of Economic Behavior & Organization vorgestellte Ergebnis: Die KI-Modelle passten ihren Wert zwar auf der Grundlage der sozialen, beruflichen und altersbezogenen Merkmale ihrer Gegner sowie deren Kenntnissen der Spieltheorie und kognitiven Fähigkeiten an. Gegen Erstsemester wählten sie höhere Zahlen, gegen Profis näherten sie sich null an, doch insgesamt gingen sie von zu rationalem Verhalten aus.
Die KI verhält sich noch nicht wie ein Mensch – kann sie ihn also ersetzen?
„Wir befinden uns derzeit in einer Phase, in der KI-Modelle beginnen, den Menschen in vielen Bereichen zu ersetzen“, so Dagaev. Bei bestimmten Entscheidungsaufgaben sei es wichtig, sicherzustellen, dass sich die KI wie ein Mensch verhält. Als ein Beispiel werden Entscheidungen an Finanzmärkten genannt: Rational agierende Broker stützten ihre Entscheidungen nicht darauf, was sie persönlich kaufen würden, sondern darauf, wie sie die Bewertung einer Aktie durch andere Marktteilnehmer einschätzen – aber bei weitem nicht jeder Broker handle rational.
Um in solchen und ähnlichen Bereichen gute Entscheidungen treffen zu können, sollten sich KI-Anwendungen nicht vertun mit ihrer Einschätzung, wie logisch und rational Menschen typischerweise agieren. Derzeit halten sie die Menschheit dem Ergebnis zufolge offenbar noch für cleverer, als sie tatsächlich ist. Die KI-Modelle gegeneinander antreten ließen die Forscher übrigens nicht.
Ursprung von Tests wie „Guess the Number“ ist der sogenannte Keynesianische Schönheitswettbewerb, der auf den britischen Ökonomen John Maynard Keynes zurückgeht. Eine klassische Umsetzung ist, Menschen zu bitten, aus hundert Fotos die fünf oder sechs attraktivsten Gesichter auszuwählen. Derjenige, dessen Auswahl am nächsten an der im Mittel beliebtesten Auswahl liegt, bekommt einen Preis. Verblüffenderweise neigen Menschen dennoch dazu, einfach die Fotos auszuwählen, die sie persönlich am attraktivsten finden. Logisch wäre hingegen, die Entscheidung auf der Grundlage verbreiteter Schönheitsvorstellungen anderer Menschen zu treffen.
