Wer Entscheidungen über KI-Agenten auf Basis von MMLU-Leaderboards trifft, misst das Falsche. Perplexitätswerte sagen dir, wie gut ein Modell die Wahrscheinlichkeit des nächsten Tokens vorhersagt — nicht, ob es eine reale GitHub-Issue schließen, eine Webseite navigieren oder einen Kundenserviceprozess über Hunderte von Interaktionen konsistent abwickeln kann. Die Forschungsgemeinschaft hat darauf reagiert: Eine Welle spezifischer Agentic-Benchmarks ist entstanden, die genau diese Praxistauglichkeit unter die Lupe nehmen. Doch ein zentraler Vorbehalt bleibt: Benchmark-Scores sind stark scaffold-abhängig. Das Modell selbst, das Prompt-Design, der Tool-Zugang, das Retry-Budget, die Ausführungsumgebung und die Evaluator-Version können die gemeldeten Ergebnisse erheblich verschieben. Keine Zahl darf ohne Kontext gelesen werden — wie sie produziert wurde, ist mindestens so relevant wie das Ergebnis selbst. Mit dieser Einschränkung im Hinterkopf: Hier sind sieben Benchmarks, die sich als echte Signale für Agenten-Fähigkeiten etabliert haben.
- Klassische Leaderboards spiegeln reale KI-Fähigkeiten kaum wider, weshalb nun spezialisierte Benchmarks wie SWE-bench, GAIA oder WebArena echte Praxistauglichkeit messen.
- Da veröffentlichte Benchmark-Scores massiv von der Architektur, dem Tool-Zugang und den Test-Bedingungen abhängen, dürfen sie nie kontextlos verglichen werden.
- Wegen trügerischer Sicherheit und Benchmark-Overfitting bleibt es für Unternehmen unerlässlich, Agenten unter den eigenen Bedingungen des Produktionsalltags zu validieren.
SWE-bench Verified und GAIA: Die zwei Grundpfeiler der Agenten-Evaluation
SWE-bench Verified ist der verlässlichste Langzeit-Fortschrittsindikator im Feld. Der Benchmark zieht 2.294 reale Probleme aus GitHub-Issues von zwölf populären Python-Repositories heran. Der Agent muss keinen Lösungsansatz beschreiben — er muss funktionierende Code-Patches liefern, die Unit-Tests bestehen. Das Verified-Subset besteht aus 500 menschlich validierten Samples, entwickelt in Zusammenarbeit mit OpenAI und professionellen Software-Ingenieuren, und ist die heute am häufigsten zitierte Version bei Frontier-Modell-Evaluierungen.
Die Entwicklungskurve ist bemerkenswert: Als der Benchmark 2023 startete, löste Claude 2 lediglich 1,96 % der Issues. In vendor-gemeldeten Ergebnissen aus Ende 2025 und Anfang 2026 überschreiten führende Frontier-Modelle die 80-Prozent-Marke auf SWE-bench Verified — wobei die genauen Scores je nach Scaffold, Tool-Setup und Evaluator-Protokoll erheblich variieren und nicht direkt across Anbieter verglichen werden sollten. Ein konsistentes Muster: Closed-Source-Modelle übertreffen Open-Source-Pendants, und die Leistung wird so stark durch den Agent-Harness geprägt wie durch das Basismodell selbst. Der Haken dabei: Hohe SWE-bench-Scores signalisieren Stärke bei Software-Reparaturaufgaben — nicht universelle Autonomie.
GAIA (General AI Assistant) schließt eine komplementäre Lücke. Seine Aufgaben klingen in der Formulierung deceptively einfach, verlangen aber eine Kette nicht-trivialer Operationen: mehrstufiges Denken, Web-Browsing, Tool-Nutzung und grundlegendes multimodales Verständnis — genau die Art von Compound-Tasks, mit denen ein realer Assistent konfrontiert wird. GAIA pflegt ein aktives Community-Leaderboard auf Hugging Face und hat sich als einer der ehrlichsten Signalgeber für allgemeine Assistenz-Fähigkeiten etabliert. Sein Design erschwert Abkürzungen und deckt systematisch Schwachstellen in der Tool-Nutzung auf, die engere Benchmarks vollständig übersehen.
WebArena und τ-bench: Autonomie unter realen Bedingungen testen
WebArena schafft funktionale Website-Umgebungen in vier Domänen — E-Commerce, Social Forums, kollaborative Softwareentwicklung und Content Management — mit echten Daten, die ihre realen Entsprechungen spiegeln. Agenten erhalten hochrangige Natural-Language-Befehle und müssen sie vollständig über ein Live-Browser-Interface ausführen. Der Benchmark umfasst 812 Long-Horizon-Tasks. Das erste GPT-4-basierte System im Original-Paper erreichte nur 14,41 % End-to-End-Task-Success, gegenüber einer menschlichen Baseline von 78,24 %. Der Abstand war drastisch — und lehrreich.
Bis Anfang 2025 meldeten spezialisierte Systeme deutlich verbesserte Werte: IBMs CUGA-System erreichte 61,7 % auf dem vollen Benchmark (Februar 2025), OpenAIs Computer-Using Agent 58,1 % im technischen Bericht vom Januar 2025. Diese Fortschritte spiegeln ein Architekturmuster wider: explizites Planing, spezialisierte Action-Execution, Memory oder State-Tracking, Reflection und aufgabenspezifische Trainings- oder Evaluationsschleifen. Der verbleibende Abstand zur menschlichen Leistung von 78,24 % markiert noch ungelöste Probleme — tiefes visuelles Verständnis und Common-Sense-Reasoning.
τ-bench (Tau-bench) adressiert ein Problem, das die meisten Benchmarks komplett ignorieren: Zuverlässigkeit über wiederholte Interaktionen hinaus. Der Benchmark emuliert dynamische, mehrstufige Gespräche zwischen einem simulierten User und einem Sprachagenten, ausgestattet mit domänenspezifischen API-Tools und Policy-Richtlinien. Zwei Domänen — τ-retail und τ-airline — evaluieren gleichzeitig drei Dimensionen: Informationssammlung über mehrere Gesprächsrunden, korrekte Befolgung domänenspezifischer Policy-Regeln (etwa die Ablehnung nicht-erstattungsfähiger Ticketänderungen) und konsistentes Verhalten in großem Maßstab via dem pass^k Reliability-Metric. Das Ergebnis ist ernüchternd: Selbst State-of-the-Art Function-Calling-Agenten wie GPT-4o schaffen weniger als 50 % der Tasks — und ihr pass^8-Wert fällt im Retail-Bereich unter 25 %. Ein Agent, der eine Aufgabe in einem Durchlauf bewältigt, kann dieselbe Aufgabe acht Mal hintereinander nicht verlässlich lösen. Für reale Deployments, die Millionen von Interaktionen verarbeiten, ist diese Inkonsistenz disqualifizierend.
ARC-AGI-2, OSWorld und AgentBench: Generalisierung, Computernutzung und Breite
ARC-AGI-2 misst Fluid Intelligence — die Fähigkeit, sich auf genuinely neue visuelle Reasoning-Puzzles zu generalisieren, die Memoisierung oder Pattern-Matching aus Trainingsdaten widerstehen. Jeder Task präsentiert dem Agenten einige Input-Output-Grid-Beispiele und fordert ihn auf, die zugrundeliegende abstrakte Regel zu inferieren und auf einen neuen Input anzuwenden. Erstellt von François Chollet, ist der Benchmark das Herzstück des ARC Prize-Wettbewerbs.
Der Kontext ist hier entscheidend: ARC-AGI-1 wurde faktisch gesättigt — Frontier-Modelle erreichten 2025 über 90 % durch Brute-Force-Engineering und benchmark-spezifisches Training. ARC-AGI-2, im März 2025 veröffentlicht, ist die aktuelle und deutlich härtere Version, die diese Schlupflöcher schließen soll. Der ARC Prize 2025 Kaggle-Wettbewerb zog 1.455 Teams an; das Top-Ergebnis erzielte 24 % mit NVIDIAs NVARC-System — einem spezialisierten synthetischen Datengenerierungs- und Test-Time-Training-Ansatz auf einem 4B-Parameter-Modell. Unter kommerziellen Frontier-Modellen hat sich die Landschaft schnell entwickelt: Gemini 3.1 Pro erreichte nach seiner Veröffentlichung im Februar 2026 einen verifizierten Score von 77,1 % — mehr als das Doppelte des Vorgängers Gemini 3 Pro mit 31,1 %. Claude Opus 4.6 kam auf 68,8 %, GPT-5.2 auf 52,9 %. ARC-AGI-3, gestartet im März 2026 mit einem interaktiven Videospiel-Format, markiert die nächste Frontier: Menschen lösen 100 % der Environments, Frontier-KI-Systeme lagen Stand März 2026 unter 1 %. Vier große KI-Labs — Anthropic, Google DeepMind, OpenAI und xAI — haben ARC-AGI als Standard-Benchmark in ihre öffentlichen Model Cards aufgenommen.
OSWorld testet Cross-Application Computer Use auf realen Betriebssystemen: 369 Tasks über echte Web- und Desktop-Anwendungen, OS-File-I/O und Cross-App-Workflows unter Ubuntu, Windows und macOS. Agenten interagieren über tatsächliche GUI-Interfaces mit roher Tastatur- und Maussteuerung — keine sauberen APIs, keine text-only Kanäle. Zum Zeitpunkt der Erstveröffentlichung bei NeurIPS 2024 bewältigten Menschen über 72,36 % der Tasks, während das beste Modell nur 12,24 % erreichte — eine revealing gap von 60 Prozentpunkten. Der Benchmark wurde seitdem zu OSWorld-Verified weiterentwickelt, das über 300 gemeldete Issues adressiert und die Evaluierungszuverlässigkeit verbessert. Die multimodalen Anforderungen — visuelles Grounding, operatives Wissen und mehrstufiges Planning über reale Betriebssysteme — machen OSWorld deutlich anspruchsvoller als Code-only-Evaluierungen.
AgentBench schließlich misst Breite statt Tiefe: acht fundamental verschiedene Umgebungen in einem einzigen Framework — OS-Interaktion, Datenbankabfragen, Knowledge-Graph-Navigation, digitale Kartenspiele, Lateral-Thinking-Puzzles, Haushalt-Task-Planning, Web-Shopping und Web-Browsing. Ein Modell, das auf SWE-bench beeindruckt, kann in einer Datenbankabfrage-Umgebung vollständig versagen. AgentBench eignet sich am besten für den Vergleich von Agenten-Architekturen und die Identifikation von Capability-Transfer-Schwachstellen — nicht für die direkte Produktionsleistungsvorhersage. Für Multi-Purpose-Agent-Systeme bietet kein anderer Benchmark diese Breiten-Diagnose in einem einzigen Durchlauf.
Die Schwachstelle des Arguments: Was diese Benchmarks nicht lösen
Die These, dass diese sieben Benchmarks ein "ehrlicheres Bild" liefern als traditionelle Metriken, ist richtig — aber sie kaschiert ein strukturelles Problem, das beim Einsatz in der Praxis nicht ignoriert werden darf. Scaffold-Abhängigkeit ist kein Randproblem: Wenn dasselbe Modell je nach Tool-Zugang, Retry-Budget und Evaluator-Version wildly different Scores produziert, dann misst der Benchmark nicht primär das Modell — er misst die gesamte Deployment-Konfiguration. Das ist für Research-Vergleiche akzeptabel, für Vendor-Claims potenziell irreführend.
Ein zweites Problem ist Benchmark-Overfitting. ARC-AGI-1 ist das Paradebeispiel: 90 % durch Brute-Force und benchmark-spezifisches Training — nicht durch generelle Intelligenzfortschritte. Dasselbe Muster könnte sich bei ARC-AGI-2 wiederholen, sobald Labs ihre Trainingsregimes anpassen. Chollets Reaktion mit ARC-AGI-3 — interaktive Videospiel-Environments ohne explizite Instruktionen — ist der bislang überzeugendste Versuch, diese Schlupflöcher zu schließen. Dass Frontier-Systeme dabei unter 1 % bleiben, ist kein Versagen des Benchmarks, sondern präzise Diagnose. Für DACH-Unternehmen, die KI-Agenten für kritische Workflows evaluieren, bedeutet das konkret: Benchmark-Scores aus Vendor-Reports sind Ausgangspunkte, keine Entscheidungsgrundlagen. Eigene Evaluierungen unter produktionsnahen Bedingungen — mit dem eigenen Tool-Stack, den eigenen Daten, den eigenen Policy-Constraints — sind unersetzbar.
So What? Was das für DACH-Entscheider bedeutet
Wer heute KI-Agenten für Unternehmensworkflows evaluiert, steht vor einer klaren Aufgabe: die Benchmark-Auswahl an den konkreten Use Case knüpfen, nicht an den Marketing-Claim. Ein Agent für Code-Review und Issue-Resolution sollte primär an SWE-bench Verified gemessen werden — mit expliziter Dokumentation des verwendeten Scaffolds, damit Vergleiche valide bleiben. Ein allgemeiner Assistenz-Agent braucht GAIA als Grundlage. Wer Browser-Automation oder RPA-Replacement plant, kommt an WebArena und OSWorld nicht vorbei. Und wer Customer-Service-Automation skaliert, sollte τ-bench als nicht-verhandelbare Zuverlässigkeitsprüfung verstehen — die pass^8-Metrik unter 25 % ist kein akademisches Detail, sondern ein Deployment-Risiko.
Der EU AI Act ist in diesem Kontext relevant: Seit August 2025 sind GPAI-Regeln, Governance-Anforderungen und Strafen in Kraft. Ab August 2026 greift der Hauptteil des Acts für Hochrisiko-KI-Systeme, inklusive HR-KI und Biometrie. Für Agenten, die in diesen Kategorien operieren, ist eine nachvollziehbare, reproduzierbare Evaluierungsdokumentation keine Best Practice — sie wird regulatorische Pflicht. Benchmark-Scores ohne Scaffold-Dokumentation werden in diesem Kontext zur Compliance-Lücke. DACH-Unternehmen, die Agenten-Deployments planen, sollten ihre Evaluierungsinfrastruktur entsprechend aufbauen: reproduzierbare Test-Setups, versionierte Evaluator-Protokolle, und die systematische Anwendung mehrerer dieser sieben Benchmarks als Mindeststandard.
AgentBench eignet sich dabei als diagnostisches Startinstrument: Wer nicht weiß, wo das Modell schwächelt, kann mit einem Breiten-Scan beginnen und gezielt nachbohren. OSWorld und τ-bench liefern danach die härtesten operativen Realitätschecks. Die Kombination ist nicht komfortabel — aber ehrlich.
Fazit: Kein Benchmark allein erzählt die ganze Geschichte
Die sieben Benchmarks ergänzen sich zu einem Bild, das kein einzelner liefern kann. SWE-bench Verified dokumentiert den dramatischsten Fortschrittssprung im Feld: von 1,96 % mit Claude 2 im Jahr 2023 auf über 80 % in vendor-gemeldeten Ergebnissen aus Ende 2025 und Anfang 2026. GAIA bleibt der zuverlässigste Generaltest für mehrstufige Tool-Nutzung. WebArena zeigt, wie weit Web-Autonomie gekommen ist — und wie weit der Abstand zur menschlichen Baseline noch reicht. τ-bench legt die Zuverlässigkeitskrise offen, die Einzel-Durchlauf-Benchmarks systematisch übersehen. ARC-AGI-2 und das faktisch unlösbare ARC-AGI-3 markieren die Grenze zwischen bisher erreichter Optimierung und echter Generalisierung. OSWorld testet Computer-Use unter realen Betriebssystembedingungen. AgentBench diagnostiziert Breite.
Prognose: Bis Ende 2026 werden Vendor-Reports ohne explizite Scaffold-Dokumentation in regulierten Branchen unter zunehmendem Druck stehen — sowohl durch den AI Act als auch durch institutionelle Einkäufer, die gelernt haben, zwischen Marketing-Scores und reproduzierbaren Evaluierungen zu unterscheiden. Teams, die diese Unterscheidung heute internalisieren und ihre Evaluierungsinfrastruktur entsprechend aufbauen, werden qualitativ bessere Deployment-Entscheidungen treffen — und weniger böse Überraschungen erleben, wenn ihre Agenten in Produktion gehen.
Token-Rechner wird geladen…
❓ Häufig gestellte Fragen
✅ 12 Claims geprüft, davon 8 mehrfach verifiziert
📚 Quellen