Benchmarks überbewerten die Fähigkeiten Künstlicher Intelligenz stark – KI

Benchmarks spielen in der Welt der Large Language Models (LLMs) eine wichtige Rolle. Sind sie doch nicht zuletzt ein wichtiges Marketinginstrument. Keine Vorstellung neuer Modelle von OpenAI, Google, Anthropic und Konsorten kommt ohne den Hinweis auf irgendwelche Bestwerte aus. Ob beim Programmieren, bei Mathematikaufgaben oder auch bei den allgemeinen Abwägungsfähigkeiten: Praktisch jede Woche werden neue Rekorde aufgestellt. So zumindest der Eindruck, den die Firmen selbst vermitteln. Ein Eindruck, den nun aber ein Team von Forschern am Oxford Internet Institute grundlegend infrage stellt.