KI-Agenten bewerten: 7 Benchmarks, die in der…

Wer heute KI-Agenten evaluiert, steht vor einem handfesten Messproblem. Klassische Leaderboard-Metriken wie MMLU oder Perplexity-Scores messen Sprachverständnis und Faktenwissen — aber kein Modell besteht damit seinen ersten Einsatz im Produktivbetrieb. Sobald ein Agent Webseiten navigieren, GitHub-Issues lösen oder mehrere APIs über eine Konversation hinweg koordinieren soll, sind diese Zahlen so aussagekräftig wie die Kilometerleistung eines Autos auf dem Prüfstand. Die KI-Community hat darauf mit einer Welle spezialisierter Agenten-Benchmarks reagiert — aber nicht alle sind gleich aussagekräftig. Sieben Tests haben sich als echte Signalgeber etabliert, die Forschern und Produktteams zeigen, wo ein Agent tatsächlich steht. Wichtig vorab: Benchmark-Scores sind stark vom jeweiligen Setup abhängig. Modell, Prompt-Design, Tool-Zugang, Retry-Budget, Ausführungsumgebung und Evaluator-Version können gemeldete Werte erheblich verschieben. Keine Zahl sollte isoliert gelesen werden — der Kontext, wie sie erzeugt wurde, ist genauso relevant wie die Zahl selbst. Mit diesem Vorbehalt im Hinterkopf folgt ein praxisorientierter Durchgang durch die sieben Benchmarks, die für agentisches Reasoning wirklich zählen.

⚡ TL;DR

Klassische Metriken wie MMLU reichen für die Bewertung autonomer KI-Agenten nicht aus, weshalb sich sieben praxiserprobte Testverfahren etabliert haben.
Spezialisierte Benchmarks wie SWE-bench, WebArena und OSWorld messen messerscharf gezielte Fähigkeiten in konkreten Bereichen wie Softwareentwicklung oder Systemsteuerung.
Testumgebungen wie τ-bench und die ARC-AGI-Serie zeigen ungeschönt auf, dass moderne Agenten bei echter Zuverlässigkeit und komplexer Generalisierung noch enorme Lücken aufweisen.

SWE-bench Verified und GAIA: Der Doppelstandard für Software-Agenten

SWE-bench Verified ist der wohl bekannteste Benchmark für agentische Fähigkeiten im Software-Engineering. Er basiert auf 2.294 realen GitHub-Issues aus zwölf populären Python-Repositories. Ein Agent muss dabei keinen Lösungsweg beschreiben — er muss einen funktionierenden Patch produzieren, der Unit-Tests besteht. Die "Verified"-Untermenge umfasst 500 menschlich validierte Muster, entwickelt in Zusammenarbeit mit OpenAI und professionellen Software-Entwicklern, und ist die Version, die bei Frontier-Modell-Evaluierungen heute am häufigsten zitiert wird.

Die Entwicklungskurve macht diesen Benchmark besonders wertvoll als Langzeit-Indikator. Als SWE-bench 2023 startete, löste Claude 2 gerade einmal 1,96% der Issues. In vendor-gemeldeten Ergebnissen aus dem späten Jahr 2025 und frühen 2026 haben Top-Frontier-Modelle die 80%-Marke auf SWE-bench Verified überschritten — wobei exakte Scores je nach Scaffold, Tool-Setup und Evaluator-Protokoll erheblich variieren und nicht direkt über verschiedene Anbieter hinweg verglichen werden sollten. Ein konsistentes Muster ist dabei sichtbar: Closed-Source-Modelle übertreffen Open-Source-Varianten tendenziell, und die Performance wird mindestens so stark vom Agenten-Framework geprägt wie vom zugrundeliegenden Modell selbst.

Der Haken: Ein hoher SWE-bench-Score garantiert keinen Allzweck-Agenten. Er signalisiert Stärke in Software-Reparaturaufgaben — keine universelle Autonomie. Genau deshalb muss er gemeinsam mit anderen Benchmarks verwendet werden.

GAIA füllt eine komplementäre Lücke. Der Benchmark testet allgemeine Assistenz-Fähigkeiten, die mehrstufiges Denken, Web-Browsing, Tool-Nutzung und grundlegendes multimodales Verständnis erfordern. GAIA-Aufgaben klingen in der Formulierung oft simpel — erfordern aber eine Kette nicht-trivialer Operationen, wie sie ein echter Assistent in der freien Wildbahn täglich bewältigen muss. Das Design widersteht Abkürzungen: Ein Agent kann sich nicht durch Raten vorbeimogeln. GAIA wird in der Agenten-Evaluierungsforschung breit zitiert und pflegt ein aktives Community-Leaderboard auf Hugging Face, auf dem Teams ihre Ergebnisse kontinuierlich einreichen. Für Teams, die Allzweck-Assistenten statt aufgabenspezifischer Agenten evaluieren, bleibt GAIA einer der ehrlichsten Signalgeber, weil er Tool-Use-Schwächen und Reproduzierbarkeitslücken freilegt, die engere Benchmarks komplett übersehen.

WebArena und τ-bench: Autonomie und Zuverlässigkeit unter Realbedingungen

WebArena testet autonome Web-Navigation in realistischen, funktionalen Umgebungen. Der Benchmark erstellt Websites über vier Domains — E-Commerce, Social-Foren, kollaborative Software-Entwicklung und Content-Management — mit echter Funktionalität und Daten, die ihren realen Entsprechungen nachempfunden sind. Agenten müssen natürlichsprachliche Befehle empfangen und diese vollständig über ein Live-Browser-Interface ausführen. Der Benchmark umfasst 812 Long-Horizon-Tasks, und der beste GPT-4-basierte Agent im Originalpaper erreichte nur 14,41% End-to-End-Taskerfolg — gegenüber einer menschlichen Baseline von 78,24%.

Der Fortschritt auf WebArena war seitdem erheblich. Bis Anfang 2025 meldeten spezialisierte Systeme Single-Agent-Abschlussraten über 60%: IBMs CUGA-System erreichte 61,7% auf dem vollständigen Benchmark (Februar 2025), OpenAIs Computer-Using Agent erzielte 58,1% in seinem technischen Bericht vom Januar 2025. Diese Gewinne entstammen einem breiteren Muster bei stärkeren Web-Agenten: explizites Planen, spezialisierte Aktionsausführung, Memory- oder State-Tracking, Reflexion und aufgabenspezifische Trainings- oder Evaluierungsschleifen. Die verbleibende Lücke zur menschlichen Performance spiegelt noch ungelöste Probleme wie tiefes visuelles Verständnis und Common-Sense-Reasoning wider. WebArena ist damit einer der meistgenutzten Benchmarks für echte Web-Autonomie — nicht für geskriptete Automatisierung.

τ-bench (Tau-bench) deckt eine andere, oft ignorierte Dimension auf: Zuverlässigkeit. Der Benchmark emuliert dynamische Mehrfach-Konversationen zwischen einem simulierten Nutzer und einem Sprach-Agenten, der mit domänenspezifischen API-Tools und Policy-Richtlinien ausgestattet ist. Die zwei Domains τ-retail und τ-airline evaluieren gleichzeitig drei Dinge: ob der Agent benötigte Informationen über mehrere Gesprächszüge sammeln kann, ob er domänenspezifische Policy-Regeln korrekt befolgt (zum Beispiel die Ablehnung nicht-erstattungsfähiger Ticket-Änderungen), und ob er über Skala hinweg konsistent agiert — gemessen via dem pass^k-Zuverlässigkeits-Metrik.

Das Ergebnis ist ernüchternd: Selbst State-of-the-Art Function-Calling-Agenten wie GPT-4o schaffen weniger als 50% der Aufgaben, und ihre Konsistenz ist noch schlechter — pass^8 fällt im Retail-Domain unter 25%. Das bedeutet: Ein Agent, der eine Aufgabe in einem Durchlauf löst, kann dieselbe Aufgabe nicht zuverlässig acht Mal hintereinander bewältigen. Für jede reale Deployment-Umgebung, die Millionen von Interaktionen verarbeitet, ist diese Inkonsistenz ein Ausschlusskriterium. Indem τ-bench Reasoning, Tool-Use, Policy-Einhaltung und Wiederholbarkeit in einem einzigen Framework kombiniert, schließt es eine Lücke, die reine Outcome-Benchmarks komplett offenlassen.

ARC-AGI-2 und ARC-AGI-3: Fluid Intelligence als Nordstern

Kein Benchmark hat die Diskussion über echte KI-Generalisierung in den letzten Jahren so geprägt wie die ARC-AGI-Serie. ARC-AGI-1 gilt inzwischen als gesättigt: Bis 2025 erreichten Frontier-Modelle durch brute-force Engineering und benchmark-spezifisches Training 90%+. Das zeigt nicht primär echte Intelligenz — es zeigt, wie gut man einen spezifischen Test trainieren kann.

ARC-AGI-2, veröffentlicht im März 2025, ist die aktuelle und wesentlich härtere Version, die diese Schlupflöcher schließen soll. Jede Aufgabe präsentiert dem Agenten eine kleine Anzahl von Input-Output-Raster-Beispielen und verlangt, die zugrundeliegende abstrakte Regel abzuleiten und auf einen neuen Input anzuwenden. Der ARC-Prize-2025-Kaggle-Wettbewerb zog 1.455 Teams an, wobei das Top-Ergebnis im Wettbewerb 24% erreichte — mit NVIDIAs NVARC-System, einem spezialisierten Ansatz mit synthetischer Datengenerierung und Test-Time-Training auf einem 4B-Parameter-Modell. Unter kommerziellen Frontier-Modellen hat sich die Score-Landschaft schnell entwickelt: Claude Opus 4.6 erreichte 68,8%, und Gemini 3.1 Pro erzielte einen verifizierten Score von 77,1% nach seinem Release im Februar 2026 — mehr als doppelt so hoch wie sein Vorgänger Gemini 3 Pro mit 31,1%. Diese Ergebnisse zeigen rapiden Fortschritt auf ARC-AGI-2, aber menschliche Vergleiche sollten vorsichtig interpretiert werden: Der ARC-Prize-2025-Techreport stellt klar, dass die Tasks als von unabhängigen Nicht-Experten lösbar validiert wurden, statt eine feste "Human-Baseline"-Prozentzahl zu präsentieren.

ARC-AGI-3, gestartet im März 2026, eskaliert die Herausforderung nochmals: Das interaktive Videospiel-Format verlangt von Agenten, neuartige Umgebungen zu erkunden, Ziele zu inferieren und Aktionssequenzen ohne explizite Anweisungen zu planen. Der ARC-AGI-3-Techreport hält fest: Menschen lösen 100% der Umgebungen, während Frontier-KI-Systeme im Stand von März 2026 unter 1% liegen. Das ist kein Fehler im Benchmark — das ist der Punkt. Vier große KI-Labs — Anthropic, Google DeepMind, OpenAI und xAI — haben ARC-AGI als Standardbenchmark in ihre öffentlichen Model Cards aufgenommen, was ihn zum klarsten Nordstern für echten Generalisierungsfortschritt im Feld macht.

OSWorld und AgentBench: Computer-Kontrolle und Benchmarking in der Breite

OSWorld geht einen Schritt weiter als die meisten Benchmarks: Es testet nicht, ob ein Agent in einer API-Umgebung funktioniert, sondern ob er tatsächlich einen Computer bedienen kann. Der Benchmark stellt 369 Computer-Tasks über reale Web- und Desktop-Applikationen, OS-File-I/O und Cross-App-Workflows auf Ubuntu, Windows und macOS bereit. Agenten müssen über echte GUI-Interfaces mit roher Tastatur- und Maussteuerung interagieren — keine sauberen APIs, keine textbasierten Kanäle. Jede Aufgabe enthält ein eigenes ausführungsbasiertes Evaluierungsskript für zuverlässiges, reproduzierbares Scoring.

Bei seiner ursprünglichen Veröffentlichung auf der NeurIPS 2024 konnten Menschen über 72,36% der Tasks bewältigen, während das beste Modell nur 12,24% erreichte — eine drastische und aufschlussreiche Lücke. Seitdem wurde der Benchmark zu OSWorld-Verified ausgebaut, das über 300 gemeldete Issues adressiert und die Evaluierungszuverlässigkeit durch verbesserte Infrastruktur, fixierte Web-Umgebungsänderungen und bessere Task-Qualität steigert. Die multimodalen Anforderungen — visuelles Grounding, operatives Wissen und mehrstufige Planung über reale Betriebssysteme hinweg — machen OSWorld erheblich schwieriger als reine Code-Evaluierungen. Für Teams, die Computer-Use-Agenten für Enterprise- und Produktivitäts-Workflows entwickeln, ist OSWorld der relevanteste verfügbare Stresstest.

AgentBench schließt das Ensemble mit einem anderen Ansatz: Breite statt Tiefe. Der Benchmark evaluiert LLMs als Agenten über acht verschiedene Umgebungen — OS-Interaktion, Datenbankabfragen, Knowledge-Graph-Navigation, digitale Kartenspiele, Lateral-Thinking-Puzzles, Household-Task-Planung, Web-Shopping und Web-Browsing. Statt einer Domain vertieft zu evaluieren, testet AgentBench, wie gut ein Modell über fundamental unterschiedliche agentische Umgebungen hinweg generalisiert. Der diagnostische Wert ist erheblich: Ein Modell mit beeindruckendem SWE-bench-Score kann in einer Datenbankabfrage-Umgebung oder einem Web-Navigation-Task komplett einbrechen. AgentBench deckt genau diese Transferlücken auf — und ist deshalb besonders wertvoll beim Auswählen eines Basismodells für Mehrzweck-Agenten-Systeme oder beim Diagnostizieren, welche Umgebungstypen die spezifischen Schwächen eines Modells freilegen. Kein anderer Benchmark in dieser Liste bietet diese breiten Diagnose-Perspektive in einem einzigen Lauf.

So setzt du es um

Definiere den Use Case zuerst. Bevor du einen Benchmark wählst, kläre: Soll der Agent Code schreiben (→ SWE-bench Verified), Web-Tasks ausführen (→ WebArena), oder Kundenprozesse abwickeln (→ τ-bench)? Jede Domain braucht ihren eigenen Test. Wer alle sieben blind durchlaufen lässt, verliert sich in Zahlen ohne Handlungsrelevanz.
Scaffold-Abhängigkeiten dokumentieren. Halte für jeden Benchmark-Run fest: Welches Agenten-Framework hast du genutzt? Wie viele Retry-Versuche waren erlaubt? Welche Tools hatte der Agent? Ohne diese Metadaten ist ein Score nicht reproduzierbar — und intern nicht kommunizierbar. Lege eine einfache Tracking-Tabelle an (z.B. in Notion oder Confluence): Spalten Modell / Benchmark / Scaffold / Score / Datum.
Reliability vor Peak-Performance priorisieren. Starte mit τ-bench und seinem pass^k-Metrik, bevor du auf andere Benchmarks optimierst. Ein Agent mit 45% Single-Run-Erfolg und pass^8 unter 25% ist für Millionen-Interaktion-Deployments schlicht nicht produktionsreif — egal wie gut seine MMLU-Zahlen sind.
ARC-AGI-2 als Generalisierungs-Indikator nutzen. Nutze ARC-AGI-2 nicht als primären KPI, sondern als Langzeit-Signal: Wenn dein Fine-Tuning auf SWE-bench zulegt, aber auf ARC-AGI-2 stagniert, deutet das auf Overfitting auf eine spezifische Domäne hin statt auf echte Generalisierung. Das ist wertvolle Information für architektonische Entscheidungen.
OSWorld für Computer-Use-Agenten priorisieren. Wenn dein Agent in Enterprise-Umgebungen mit Desktop-Apps oder Multiapp-Workflows agieren soll, ist OSWorld der härteste verfügbare Realitätscheck. Starte mit dem OSWorld-Verified-Subset und messe explizit Cross-App-Tasks, da diese den größten Schwierigkeitssprung gegenüber Single-App-Szenarien aufweisen.
AgentBench als Diagnose-Tool verwenden. Führe AgentBench einmal vollständig durch, wenn du ein neues Basismodell evaluierst. Die acht Umgebungen zeigen schnell, welche Domänen ein Modell systematisch verlässt — und steuern damit, wo zusätzliches Training oder Tool-Design investiert werden sollte.
Ergebnisse nie ohne Benchmark-Version angeben. ARC-AGI-1 ist gesättigt, ARC-AGI-3 ist Stand heute für alle Systeme praktisch unlösbar. Wer in internen Reports oder Vendor-Gesprächen nur "ARC-AGI-Score: X%" schreibt ohne Version, kommuniziert nichts Brauchbares. Mach es zum Standard, immer Benchmark-Name plus Version plus Evaluator-Datum zu nennen.

Was sich rechnet

Die ROI-Rechnung hinter Benchmark-basierter Evaluation ist einfacher als sie aussieht. Stell dir folgendes Szenario vor: Ein Entwicklerteam deployed einen Kundenservice-Agenten ohne vorherige τ-bench-Evaluierung. Der Agent zeigt im initialen Staging-Test 70% Erfolgsrate — solide wirkende Zahlen. Im Produktivbetrieb mit 10.000 täglichen Interaktionen fällt die Konsistenz aber auf ein pass^8 unter 25%, weil keine Reliability-Tests stattfanden. Das kostet in Form von Eskalationen, manuellen Nacharbeiten und Kundenzufriedenheitsverlust erheblich mehr als ein strukturierter Benchmark-Durchlauf im Vorfeld.

Konkret: Ein vollständiger τ-bench-Testlauf über eine Agentenimplementierung kostet in API-Gebühren und Entwicklerzeit grob 2–4 Stunden Arbeit plus Inference-Kosten. Das ist verglichen mit den Kosten eines fehlgeschlagenen Produktiv-Deployments ein minimaler Invest. Dieselbe Logik gilt für OSWorld: Wer 369 Tasks durch einen Computer-Use-Agenten jagen lässt, erhält einen reproduzierbaren Score — und vermeidet, dass der Agent in der Produktion an trivialen GUI-Schritten scheitert, die im API-only-Testing nie aufgetaucht wären.

Im Klartext: Benchmark-Evaluation ist kein akademisches Pflichtprogramm, sondern Risikomanagement. Wer die richtigen Tests vor dem Deployment macht, zahlt einmal für Information statt mehrfach für Fehler.

Die typischen Fallstricke

Fallstrick 1: Scaffold-Vergleiche ohne Kontrolle. Der häufigste Fehler in internen Evaluierungen ist der direkte Score-Vergleich zweier Modelle auf SWE-bench oder WebArena, obwohl unterschiedliche Retry-Budgets, Tool-Sets oder Agent-Harnesses verwendet wurden. Ein Modell mit drei Retry-Versuchen und umfangreichem Tool-Zugang wird ein Modell mit einem Versuch und eingeschränktem Tooling systematisch übertreffen — unabhängig von der tatsächlichen Modellqualität. Lösung: Standardisiere das Scaffold-Setup vor dem Vergleich und dokumentiere alle variablen Parameter explizit.
Fallstrick 2: ARC-AGI-Versionen verwechseln. ARC-AGI-1 ist bei Frontier-Modellen durch benchmark-spezifisches Training praktisch gesättigt — hohe Scores dort sagen kaum noch etwas über echte Generalisierung aus. ARC-AGI-2 ist der aktuelle Test, ARC-AGI-3 ist für alle heutigen Systeme nahezu unlösbar. Wer im Jahr 2026 einen "ARC-AGI-Score von 90%+" kommuniziert ohne Versionsangabe, arbeitet mit veralteten Benchmarks. Lösung: Immer Versionsnummer und Evaluierungsdatum mitangeben — intern wie extern.
Fallstrick 3: Single-Run-Erfolgsrate mit Produktionsreife gleichsetzen. τ-bench zeigt, dass selbst sehr gute Modelle unter pass^8 auf 25% fallen. Wer nur Single-Run-Ergebnisse misst und daraus auf Produktionsreife schließt, unterschätzt systematisch, wie oft ein Agent an Wiederholungsaufgaben scheitert. Lösung: Für jeden Benchmark, der für Deployment-Entscheidungen genutzt wird, mindestens pass^3-Scores erheben. Für kritische Workflows pass^5 oder höher testen, bevor produktiver Einsatz freigegeben wird.

So What? Benchmarks als strategisches Entscheidungswerkzeug

Für Teams im DACH-Raum, die KI-Agenten in Produktionsumgebungen einsetzen oder evaluieren, ist die Benchmark-Frage keine akademische Randnotiz. Der EU AI Act, dessen Hauptteil ab August 2026 in Kraft tritt, stellt an Hochrisiko-KI-Systeme konkrete Anforderungen an Dokumentation, Robustheit und menschliche Aufsicht. Wer einen Agenten deployed, der in Kundenservice, HR-Prozessen oder Finanzworkflows agiert, muss dessen Fähigkeiten und Grenzen nachweisbar belegen können. Benchmark-Ergebnisse sind dabei nicht nur interne Qualitätssicherung — sie sind potenziell Teil der regulatorischen Dokumentation.

Das bedeutet konkret: Ein τ-bench-Report, der zeigt, dass ein Kundenservice-Agent Policy-Regeln in 85% der Fälle korrekt befolgt, ist belastbarer als eine vage Aussage über "hohe Zuverlässigkeit". Ein OSWorld-Score gibt Compliance-Teams nachvollziehbare Anhaltspunkte dafür, wie ein Computer-Use-Agent unter realen Bedingungen performt. Und SWE-bench-Resultate liefern Entwicklungsteams klare Richtwerte für automatisierte Code-Review-Agenten. Im Klartext: Die Teams, die diese sieben Benchmarks verstehen, richtig einsetzen und Ergebnisse kontextualisiert kommunizieren, werden sowohl bessere Systeme bauen als auch regulatorisch besser aufgestellt sein. Das ist kein Zufall — es ist der eigentliche Mehrwert strukturierter Evaluation gegenüber intuitivem "Es funktioniert"-Testing.

Fazit: Sieben Benchmarks, eine ehrliche Diagnose

Kein einzelner Benchmark erzählt die vollständige Geschichte. SWE-bench Verified misst Software-Engineering-Kompetenz anhand realer GitHub-Issues und zeigt die dramatischste Fortschrittskurve im Feld — von 1,96% im Jahr 2023 auf über 80% in vendor-gemeldeten Ergebnissen aus 2025/2026. GAIA testet zusammengesetzte Tool-Nutzung und mehrstufiges Reasoning. WebArena evaluiert echte Web-Autonomie mit 812 Long-Horizon-Tasks. τ-bench legt die Reliability-Krise offen, die One-Shot-Benchmarks komplett übersehen. ARC-AGI-2 tastet echte Generalisierung und Fluid Intelligence ab — und ARC-AGI-3 zeigt, dass die Frontier-KI davon noch weit entfernt ist. OSWorld evaluiert vollständige Computer-Kontrolle über reale Betriebssysteme. AgentBench diagnostiziert Breite über acht fundamental unterschiedliche Umgebungen.

Zusammen, und interpretiert mit dem Bewusstsein für Scaffold-Abhängigkeiten, liefern diese sieben das ehrlichste verfügbare Bild davon, wo ein Agent wirklich steht. Für Produktionsteams, die heute Agenten deployen, ist diese Kombination keine Nice-to-have-Checkliste — sie ist die Grundlage solider Deployment-Entscheidungen. Wer in zwei Jahren erklärt, warum sein Agent in der Produktion scheitert, hat die Benchmark-Arbeit vorher nicht gemacht.

Token-Rechner wird geladen…

❓ Häufig gestellte Fragen

▶ Warum reichen traditionelle Metriken zur Agenten-Bewertung nicht aus?

Klassische Leaderboards messen hauptsächlich reine Textausgabe, Sprachverständnis und Faktenwissen. Sobald ein Agent aber real mehrere APIs koordinieren oder im Web navigieren muss, verlieren diese Werte ihre Aussagekraft für den echten Produktivbetrieb.

▶ Welcher Benchmark eignet sich am besten für Software-Agenten?

SWE-bench Verified gilt heute als der wichtigste Indikator für autonome Programmierfähigkeiten. Er verlangt von Agenten, auf Basis von echten GitHub-Issues funktionierende Patches zu generieren, die bestehende Unit-Tests erfolgreich absolvieren müssen.

▶ Was macht die ARC-AGI-Serie so besonders anspruchsvoll?

ARC-AGI-3 evaluiert echte Generalisierung und fluide Intelligenz mithilfe von interaktiven Videospielumgebungen. Agenten müssen darin komplett neuartige Welten erkunden und Ziele ohne explizite Anweisungen ableiten, woran aktuelle KI-Systeme momentan noch fast vollständig scheitern.

📰 Recherchiert auf Basis von 1 Primärquelle (marktechpost.com)

ℹ️ Wie wir prüfen →

📚 Quellen