Google hat "Auto-Diagnose" eingeführt, ein KI-gestütztes System, das die Ursachen für fehlgeschlagene Integrationstests identifiziert und die Ergebnisse direkt in Code-Reviews postet, mit einer beeindruckenden Trefferquote von 90,14% bei 71 realen Fehlern über 39 Teams. Seit dem Start im Mai 2025 hat das System über 52.000 verschiedene fehlgeschlagene Tests von 22.962 Entwicklern verarbeitet. Die schnelle Diagnose innerhalb von durchschnittlich 56 Sekunden ermöglicht es Entwicklern, Probleme zu beheben, bevor sie den Kontext wechseln müssen.
- Google hat mit Auto-Diagnose ein System eingeführt, das Ursachen von Integrationstest-Fehlern in durchschnittlich 56 Sekunden mit einer Trefferquote von 90 Prozent identifiziert.
- Das System basiert auf Gemini 2.5 Flash und nutzt intelligentes Prompt Engineering mit einer strikten Ablehnungsregel, um Halluzinationen bei unvollständigen Daten vorzubeugen.
- Für externe DevOps-Teams beweist das Projekt, wie präzise konfigurierte Universalmodelle teure Speziallösungen übertreffen können.
Das von Google entwickelte Auto-Diagnose-System verzichtet auf komplexes Fine-Tuning und setzt stattdessen auf intelligentes Prompt Engineering mit Gemini 2.5 Flash. Bei einem Testfehler sammelt das System automatisch alle relevanten Logs, ordnet sie chronologisch und sendet sie zusammen mit Metadaten an das Sprachmodell. Entscheidend ist dabei ein strenges "Refusal-Constraint": Falls nicht genügend Informationen für eine präzise Diagnose vorliegen, gibt das System explizit an, dass mehr Daten erforderlich sind, anstatt zu spekulieren. Dieser Mechanismus hat nicht nur Halluzinationen verhindert, sondern auch Schwachstellen in Googles Logging-Infrastruktur aufgedeckt. Intern belegt Auto-Diagnose Platz 14 von 370 Tools bezüglich der Hilfsbereitschaft bei Code-Reviews, mit einer geringen "nicht hilfreich"-Rate von 5,8%. Das Debuggen von Integrationstests ist ein branchenweites Problem, da laut einer internen Google-Umfrage 38,4 % der Fehler mehr als eine Stunde und 8,9 % sogar mehr als einen Tag zur Diagnose benötigen.
Die größte Erkenntnis für DevOps-Teams außerhalb von Google ist die Bestätigung, dass ein gut konfiguriertes, universelles großes Sprachmodell (LLM) mit präzisen Anweisungen und strikten Ablehnungsmechanismen spezialisierte Lösungen übertreffen kann. Das wissenschaftliche Papier mit dem vollständigen Prompt-Aufbau wurde am 17. April 2026 auf arXiv veröffentlicht und ist direkt für andere Projekte adaptierbar.
❓ Häufig gestellte Fragen
✅ 11 Claims geprüft, davon 2 mehrfach verifiziert
📚 Quellen
- Google AI / MarktechPost: Google AI Releases Auto-Diagnose (17. April 2026)
- arXiv Preprint (Primärquelle): Auto-Diagnose: LLM-Based System to Diagnose Integration Test Failures at Scale