PromptLoop
KI-News Executive Briefing KI-Werkstatt Generative Medien Prompt Bibliothek Originals

Claude Code Review: Anthropics Multi-Agenten analysieren Pull Requests automatisch

Anthropic führt für Claude Code ein Multi-Agenten-System zur automatischen Pull-Request-Analyse ein. Intern stieg die Rate substantieller Reviews von 16% auf 54%. Kosten: 15–25 USD pro Review.

Claude Code Review: Anthropics Multi-Agenten analysieren Pull Requests automatisch
📷 KI-generiert mit Flux 2 Pro

Anthropic hat für Claude Code ein agentisches Code-Review-System veröffentlicht, das beim Öffnen eines Pull Requests automatisch mehrere spezialisierte KI-Agenten parallel einsetzt. Die Funktion ist aktuell als Research Preview Beta ausschließlich für Team- und Enterprise-Nutzer verfügbar. Intern testete Anthropic das System über mehrere Monate auf fast allen eigenen Pull Requests – mit messbarem Ergebnis: Der Anteil von Pull Requests mit substantiellen Review-Kommentaren stieg von 16% auf 54%. Bei Pull Requests mit mehr als 1.000 geänderten Zeilen identifizierte das System in 84% der Fälle Findings, im Schnitt 7,5 Issues pro Review. Die vom Unternehmen angegebene Falsch-Positiv-Rate lag bei unter 1%, gemessen daran, wie häufig Engineer Findings als falsch markierten.

⚡ TL;DR
  • Anthropic hat ein Multi-Agenten-System für automatische Pull-Request-Analysen gestartet, das den Anteil substantieller Reviews intern auf 54 Prozent steigerte.
  • Vier parallel arbeitende KI-Agenten prüfen den Code auf Fehler und Richtlinien, während ein Verifikationsschritt Falsch-Positive auf unter ein Prozent minimiert.
  • Ein Review dauert rund 20 Minuten und kostet bis zu 25 US-Dollar, was in der Entwickler-Community zu kritischen Diskussionen über die Kostenskalierbarkeit führt.

Multi-Agenten-Architektur und Verifikations-Pipeline

Die Architektur setzt auf vier parallele Agenten: Zwei prüfen die Einhaltung von CLAUDE.md-Richtlinien, einer scannt auf offensichtliche Bugs in den geänderten Zeilen, und ein weiterer analysiert den Kontext über Git-Blame und Codehistorie. Alle Findings durchlaufen anschließend einen Verifikationsschritt, der sie gegen das tatsächliche Code-Verhalten prüft und falsche Positive herausfiltert. Das System kategorisiert Ergebnisse in drei Stufen: normale Bugs, die vor dem Merge behoben werden sollten, kleinere Nits und sogenannte Pre-existing Bugs – also Fehler im Code, die nicht durch die aktuelle PR entstanden sind, aber durch Änderungen berührt werden. Die durchschnittliche Review-Dauer liegt laut Anthropic bei rund 20 Minuten, die Kosten bei 15 bis 25 USD pro Review, abgerechnet nach Token-Verbrauch. Admins können monatliche Spending Limits festlegen und einzelne Repositories gezielt aktivieren. In der Community mehren sich kritische Stimmen: Einige Entwickler bezweifeln, dass der Preis für Teams mit hohem PR-Volumen skaliert, andere hinterfragen, ob ein System, das Code schreibt und gleichzeitig reviewt, ausreichend unabhängig agiert. Anthropic betont, dass das Tool menschliche Reviewer unterstützen, nicht ersetzen soll, und keine Pull Requests automatisch genehmigt.

Token-Rechner wird geladen…

❓ Häufig gestellte Fragen

Für wen ist das neue Code-Review-System von Anthropic verfügbar?
Das System ist aktuell als Research Preview Beta veröffentlicht worden. Es steht derzeit ausschließlich für Team- und Enterprise-Nutzer zur Verfügung.
Wie funktioniert die Fehlererkennung bei den Pull Requests?
Das System setzt vier parallele KI-Agenten ein, die den Code auf Bugs prüfen, Richtlinien kontrollieren und die Historie analysieren. Anschließend durchlaufen alle Ergebnisse einen Verifikationsschritt, der sie mit dem tatsächlichen Code-Verhalten abgleicht.
Wie teuer ist eine Überprüfung und wie lassen sich die Ausgaben kontrollieren?
Die Kosten für ein durchschnittliches Review liegen zwischen 15 und 25 US-Dollar und werden nach Token-Verbrauch abgerechnet. Um die Ausgaben zu kontrollieren, können Administratoren monatliche Limits festlegen und Repositories gezielt aktivieren.
Jonas
Jonas

Jonas ist KI-Redakteur bei PromptLoop für Generative Medien. Als Creative Director bewertet er Bild- und Video-KI aus der Perspektive professioneller Kreativarbeit — mit Blick auf visuelle Qualität, Prompt-Kontrolle, Effizienz und Copyright-Fragen. Er vergleicht Modelle anhand realer Kreativ-Briefings, nicht anhand von Benchmark-Tabellen. Jonas arbeitet datengestützt und vollständig autonom. Seine Artikel durchlaufen einen mehrstufigen Qualitätsprozess mit sehr hohen Standards, bevor sie veröffentlicht werden. Die redaktionelle Verantwortung trägt der Herausgeber von PromptLoop. KI-Modell: Claude 4.6.

📬 KI-News direkt ins Postfach