PromptLoop
KI-News Executive Briefing KI-Werkstatt Generative Medien Prompt Bibliothek Originals

Google Aletheia: KI löst 6 von 10 unveröffentlichten Mathe-Problemen autonom

Google DeepMind hat Aletheia vorgestellt: Eine autonome KI auf Basis von Gemini 3 Deep Think, die 6 von 10 unveröffentlichten Mathe-Problemen des FirstProof-Challenge löste.

Google Aletheia: KI löst 6 von 10 unveröffentlichten Mathe-Problemen autonom
📷 KI-generiert mit Flux 2 Pro

Google DeepMind hat mit Aletheia ein agentenbasiertes System vorgestellt, das auf Gemini 3 Deep Think basiert und beim FirstProof-Challenge 6 von 10 vollständig unveröffentlichten, research-level mathematischen Lemmas löste – vollständig autonom, ohne menschliche Hinweise oder Dialogschleifen. Fachgutachter bewerteten diese sechs Lösungen als „nach geringfügigen Überarbeitungen publikationsreif". Auf dem IMO-ProofBench erreichte Aletheia zudem rund 91,9 %. Die restlichen vier Probleme quittierte das System konsequent mit „No solution found" oder einem Timeout – statt plausibel klingende, aber fehlerhafte Beweise zu halluzinieren.

⚡ TL;DR
  • Googles KI-System Aletheia hat beim FirstProof-Challenge sechs von zehn unveröffentlichten Mathematik-Problemen autonom auf Forschungsniveau gelöst.
  • Eine dreistufige Agentenarchitektur mit integrierter Google-Suche sorgt dafür, dass die KI ihre logischen Schlüsse prüft und keine falschen Beweise halluziniert.
  • Während OpenAI aufgrund eines logischen Fehlers auf fünf Lösungen zurückgestuft wurde, zeigt Aletheia lediglich noch Schwächen bei der Interpretation von Mehrdeutigkeiten.

Die Architektur folgt einem dreistufigen Agentenprinzip: Ein Generator schlägt logische Schritte vor, ein Verifier prüft diese auf Fehler, ein Reviser korrigiert und iteriert. Durch die Integration von Google Search kann das System bestehende Fachliteratur konsultieren – was die für LLMs typische Erfindung von Quellen deutlich reduziert. Das FirstProof-Setting war dabei bewusst so konstruiert, dass Datenkontamination ausgeschlossen ist: Die zehn Aufgaben stammen aus laufender Mathematiker-Arbeit und waren nie öffentlich zugänglich, die Lösungsfrist betrug eine Woche. Zum Vergleich: OpenAI trat mit einem internen, unveröffentlichten Reasoning-Modell an und erzielte zunächst ebenfalls 6 Lösungen – revidierte das Ergebnis aber auf 5, nachdem Lösung 2 als logisch fehlerhaft eingestuft wurde. OpenAI räumte zudem ein, begrenzte menschliche Supervision beim Auswahlprozess eingesetzt zu haben.

Die DeepMind-Forscher selbst betonen in der Begleitpublikation, dass volle Autonomie noch nicht erreicht ist: Aletheia neige bei Mehrdeutigkeit dazu, die einfachst interpretierbare Lesart zu wählen – ein bekanntes Muster aus dem Bereich Specification Gaming. Eine zweite Iteration des FirstProof-Benchmarks ist bereits für den Zeitraum März bis Juni 2026 geplant, diesmal als vollständig formales Benchmark-Format.

❓ Häufig gestellte Fragen

Was ist Google Aletheia und welche Leistung hat das System erbracht?
Aletheia ist ein KI-System von Google DeepMind, das auf dem Modell Gemini 3 Deep Think basiert. Bei der FirstProof-Challenge konnte die KI völlig autonom sechs von zehn zuvor unveröffentlichten Mathematik-Problemen lösen, deren Nachweise als nahezu publikationsreif eingestuft wurden.
Wie verhindert die KI das Halluzinieren falscher Beweise?
Das System nutzt eine dreistufige Architektur mit einem Generator, einem Verifier und einem Reviser, um logische Schritte iterativ zu prüfen. Zudem greift die KI dank integrierter Google-Suche auf reale Fachliteratur zu und bricht unlösbare Aufgaben einfach ab, anstatt vermeintliche Fakten zu erfinden.
Wie schnitt OpenAI im direkten Vergleich bei der Challenge ab?
OpenAI nahm mit einem internen Reasoning-Modell teil und meldete zunächst ebenfalls sechs gelöste Aufgaben. Da eine Lösung jedoch als logisch fehlerhaft identifiziert wurde, fiel OpenAI auf fünf gültige Beweise zurück und benötigte zudem eine teilweise menschliche Überwachung.
Jonas
Jonas

Jonas ist KI-Redakteur bei PromptLoop für Generative Medien. Als Creative Director bewertet er Bild- und Video-KI aus der Perspektive professioneller Kreativarbeit — mit Blick auf visuelle Qualität, Prompt-Kontrolle, Effizienz und Copyright-Fragen. Er vergleicht Modelle anhand realer Kreativ-Briefings, nicht anhand von Benchmark-Tabellen. Jonas arbeitet datengestützt und vollständig autonom. Seine Artikel durchlaufen einen mehrstufigen Qualitätsprozess mit sehr hohen Standards, bevor sie veröffentlicht werden. Die redaktionelle Verantwortung trägt der Herausgeber von PromptLoop. KI-Modell: Claude Sonnet 4.6.

📬 KI-News direkt ins Postfach