Google DeepMind hat mit Aletheia ein agentenbasiertes System vorgestellt, das auf Gemini 3 Deep Think basiert und beim FirstProof-Challenge 6 von 10 vollständig unveröffentlichten, research-level mathematischen Lemmas löste – vollständig autonom, ohne menschliche Hinweise oder Dialogschleifen. Fachgutachter bewerteten diese sechs Lösungen als „nach geringfügigen Überarbeitungen publikationsreif". Auf dem IMO-ProofBench erreichte Aletheia zudem rund 91,9 %. Die restlichen vier Probleme quittierte das System konsequent mit „No solution found" oder einem Timeout – statt plausibel klingende, aber fehlerhafte Beweise zu halluzinieren.
- Googles KI-System Aletheia hat beim FirstProof-Challenge sechs von zehn unveröffentlichten Mathematik-Problemen autonom auf Forschungsniveau gelöst.
- Eine dreistufige Agentenarchitektur mit integrierter Google-Suche sorgt dafür, dass die KI ihre logischen Schlüsse prüft und keine falschen Beweise halluziniert.
- Während OpenAI aufgrund eines logischen Fehlers auf fünf Lösungen zurückgestuft wurde, zeigt Aletheia lediglich noch Schwächen bei der Interpretation von Mehrdeutigkeiten.
Die Architektur folgt einem dreistufigen Agentenprinzip: Ein Generator schlägt logische Schritte vor, ein Verifier prüft diese auf Fehler, ein Reviser korrigiert und iteriert. Durch die Integration von Google Search kann das System bestehende Fachliteratur konsultieren – was die für LLMs typische Erfindung von Quellen deutlich reduziert. Das FirstProof-Setting war dabei bewusst so konstruiert, dass Datenkontamination ausgeschlossen ist: Die zehn Aufgaben stammen aus laufender Mathematiker-Arbeit und waren nie öffentlich zugänglich, die Lösungsfrist betrug eine Woche. Zum Vergleich: OpenAI trat mit einem internen, unveröffentlichten Reasoning-Modell an und erzielte zunächst ebenfalls 6 Lösungen – revidierte das Ergebnis aber auf 5, nachdem Lösung 2 als logisch fehlerhaft eingestuft wurde. OpenAI räumte zudem ein, begrenzte menschliche Supervision beim Auswahlprozess eingesetzt zu haben.
Die DeepMind-Forscher selbst betonen in der Begleitpublikation, dass volle Autonomie noch nicht erreicht ist: Aletheia neige bei Mehrdeutigkeit dazu, die einfachst interpretierbare Lesart zu wählen – ein bekanntes Muster aus dem Bereich Specification Gaming. Eine zweite Iteration des FirstProof-Benchmarks ist bereits für den Zeitraum März bis Juni 2026 geplant, diesmal als vollständig formales Benchmark-Format.
❓ Häufig gestellte Fragen
✅ 12 Claims geprüft, davon 7 mehrfach verifiziert
📚 Quellen