Google Aletheia: KI löst 6 von 10…

Google DeepMind hat mit Aletheia ein agentenbasiertes System vorgestellt, das auf Gemini 3 Deep Think basiert und beim FirstProof-Challenge 6 von 10 vollständig unveröffentlichten, research-level mathematischen Lemmas löste – vollständig autonom, ohne menschliche Hinweise oder Dialogschleifen. Fachgutachter bewerteten diese sechs Lösungen als „nach geringfügigen Überarbeitungen publikationsreif". Auf dem IMO-ProofBench erreichte Aletheia zudem rund 91,9 %. Die restlichen vier Probleme quittierte das System konsequent mit „No solution found" oder einem Timeout – statt plausibel klingende, aber fehlerhafte Beweise zu halluzinieren.

⚡ TL;DR

Googles KI-System Aletheia hat beim FirstProof-Challenge sechs von zehn unveröffentlichten Mathematik-Problemen autonom auf Forschungsniveau gelöst.
Eine dreistufige Agentenarchitektur mit integrierter Google-Suche sorgt dafür, dass die KI ihre logischen Schlüsse prüft und keine falschen Beweise halluziniert.
Während OpenAI aufgrund eines logischen Fehlers auf fünf Lösungen zurückgestuft wurde, zeigt Aletheia lediglich noch Schwächen bei der Interpretation von Mehrdeutigkeiten.

Die Architektur folgt einem dreistufigen Agentenprinzip: Ein Generator schlägt logische Schritte vor, ein Verifier prüft diese auf Fehler, ein Reviser korrigiert und iteriert. Durch die Integration von Google Search kann das System bestehende Fachliteratur konsultieren – was die für LLMs typische Erfindung von Quellen deutlich reduziert. Das FirstProof-Setting war dabei bewusst so konstruiert, dass Datenkontamination ausgeschlossen ist: Die zehn Aufgaben stammen aus laufender Mathematiker-Arbeit und waren nie öffentlich zugänglich, die Lösungsfrist betrug eine Woche. Zum Vergleich: OpenAI trat mit einem internen, unveröffentlichten Reasoning-Modell an und erzielte zunächst ebenfalls 6 Lösungen – revidierte das Ergebnis aber auf 5, nachdem Lösung 2 als logisch fehlerhaft eingestuft wurde. OpenAI räumte zudem ein, begrenzte menschliche Supervision beim Auswahlprozess eingesetzt zu haben.

Die DeepMind-Forscher selbst betonen in der Begleitpublikation, dass volle Autonomie noch nicht erreicht ist: Aletheia neige bei Mehrdeutigkeit dazu, die einfachst interpretierbare Lesart zu wählen – ein bekanntes Muster aus dem Bereich Specification Gaming. Eine zweite Iteration des FirstProof-Benchmarks ist bereits für den Zeitraum März bis Juni 2026 geplant, diesmal als vollständig formales Benchmark-Format.

❓ Häufig gestellte Fragen

▶ Was ist Google Aletheia und welche Leistung hat das System erbracht?

Aletheia ist ein KI-System von Google DeepMind, das auf dem Modell Gemini 3 Deep Think basiert. Bei der FirstProof-Challenge konnte die KI völlig autonom sechs von zehn zuvor unveröffentlichten Mathematik-Problemen lösen, deren Nachweise als nahezu publikationsreif eingestuft wurden.

▶ Wie verhindert die KI das Halluzinieren falscher Beweise?

Das System nutzt eine dreistufige Architektur mit einem Generator, einem Verifier und einem Reviser, um logische Schritte iterativ zu prüfen. Zudem greift die KI dank integrierter Google-Suche auf reale Fachliteratur zu und bricht unlösbare Aufgaben einfach ab, anstatt vermeintliche Fakten zu erfinden.

▶ Wie schnitt OpenAI im direkten Vergleich bei der Challenge ab?

OpenAI nahm mit einem internen Reasoning-Modell teil und meldete zunächst ebenfalls sechs gelöste Aufgaben. Da eine Lösung jedoch als logisch fehlerhaft identifiziert wurde, fiel OpenAI auf fünf gültige Beweise zurück und benötigte zudem eine teilweise menschliche Überwachung.

✅ 12 Claims geprüft, davon 7 mehrfach verifiziert

ℹ️ Wie wir prüfen →

📚 Quellen

InfoQ: Google's Aletheia Advances the State of the Art of Fully Autonomous Agentic Math Research
Google DeepMind Blog: Accelerating Mathematical and Scientific Discovery with Gemini Deep Think

❓ Häufig gestellte Fragen

Das könnte dich auch interessieren

Bright Data CLI: Web-Daten direkt in ML-Pipelines ohne manuellen Setup-Aufwand

HubSpot AEO: Organischer Traffic bricht um 27 Prozent ein – CRM-Gigant reagiert

App Store 2026: KI-Coding-Tools treiben App-Releases auf Rekordhoch