Anthropic hat für Claude Code ein agentisches Code-Review-System veröffentlicht, das beim Öffnen eines Pull Requests automatisch mehrere spezialisierte KI-Agenten parallel einsetzt. Die Funktion ist aktuell als Research Preview Beta ausschließlich für Team- und Enterprise-Nutzer verfügbar. Intern testete Anthropic das System über mehrere Monate auf fast allen eigenen Pull Requests – mit messbarem Ergebnis: Der Anteil von Pull Requests mit substantiellen Review-Kommentaren stieg von 16% auf 54%. Bei Pull Requests mit mehr als 1.000 geänderten Zeilen identifizierte das System in 84% der Fälle Findings, im Schnitt 7,5 Issues pro Review. Die vom Unternehmen angegebene Falsch-Positiv-Rate lag bei unter 1%, gemessen daran, wie häufig Engineer Findings als falsch markierten.
- Anthropic hat ein Multi-Agenten-System für automatische Pull-Request-Analysen gestartet, das den Anteil substantieller Reviews intern auf 54 Prozent steigerte.
- Vier parallel arbeitende KI-Agenten prüfen den Code auf Fehler und Richtlinien, während ein Verifikationsschritt Falsch-Positive auf unter ein Prozent minimiert.
- Ein Review dauert rund 20 Minuten und kostet bis zu 25 US-Dollar, was in der Entwickler-Community zu kritischen Diskussionen über die Kostenskalierbarkeit führt.
Multi-Agenten-Architektur und Verifikations-Pipeline
Die Architektur setzt auf vier parallele Agenten: Zwei prüfen die Einhaltung von CLAUDE.md-Richtlinien, einer scannt auf offensichtliche Bugs in den geänderten Zeilen, und ein weiterer analysiert den Kontext über Git-Blame und Codehistorie. Alle Findings durchlaufen anschließend einen Verifikationsschritt, der sie gegen das tatsächliche Code-Verhalten prüft und falsche Positive herausfiltert. Das System kategorisiert Ergebnisse in drei Stufen: normale Bugs, die vor dem Merge behoben werden sollten, kleinere Nits und sogenannte Pre-existing Bugs – also Fehler im Code, die nicht durch die aktuelle PR entstanden sind, aber durch Änderungen berührt werden. Die durchschnittliche Review-Dauer liegt laut Anthropic bei rund 20 Minuten, die Kosten bei 15 bis 25 USD pro Review, abgerechnet nach Token-Verbrauch. Admins können monatliche Spending Limits festlegen und einzelne Repositories gezielt aktivieren. In der Community mehren sich kritische Stimmen: Einige Entwickler bezweifeln, dass der Preis für Teams mit hohem PR-Volumen skaliert, andere hinterfragen, ob ein System, das Code schreibt und gleichzeitig reviewt, ausreichend unabhängig agiert. Anthropic betont, dass das Tool menschliche Reviewer unterstützen, nicht ersetzen soll, und keine Pull Requests automatisch genehmigt.
Token-Rechner wird geladen…
❓ Häufig gestellte Fragen
✅ 10 Claims geprüft, davon 4 mehrfach verifiziert
📚 Quellen