Der unabhängige KI-Forscher Simon Willison hat aufgedeckt, dass Anthropic bei seinen Sprachmodellen Claude Opus 4 und Sonnet 4 deutlich detailliertere System-Prompts verwendet, als öffentlich gemacht wird. Diese versteckten Anweisungen, die durch Prompt-Injection extrahiert und von Willison analysiert wurden, umfassen Anti-Sycophancy-Regeln, Urheberrechtseinschränkungen für Suchergebnisse und ein Verbot, Antworten mit positiven Attributen wie "faszinierend" zu beginnen. Diese Prompts funktionieren wie eine inoffizielle Bedienungsanleitung für das Modell und enthüllen, wie Anthropic versucht, spezifisches Verhalten zu steuern.
- Geleakte System-Prompts von Claude Opus 4 und Sonnet 4 enthüllen, wie Anthropic das Verhalten, die Werkzeugnutzung und die Tonalität seiner KI-Modelle detailliert steuert.
- Die Prompts enthalten Anti-Sycophancy-Regeln, Urheberrechtseinschränkungen und Anweisungen gegen positive Begrüßungen, die als inoffizielle Bedienungsanleitung dienen.
- Es gibt Inkonsistenzen beim Trainingsdaten-Cutoff und spezifische Regeln gegen die Reproduktion von Songtexten sowie "verdrängende Zusammenfassungen" von Webinhalten zum Schutz des Urheberrechts.
Ein zentraler Punkt ist Anthropics proaktiver Umgang mit dem "Sycophancy-Problem", bei dem KI-Modelle zu schmeichelhaft antworten. Claude wird explizit angewiesen, Nutzerfragen oder -ideen nicht als gut oder großartig zu bezeichnen. Weiterhin gibt es strikte Regeln für die Werkzeugnutzung: Nur ein kurzes Zitat pro Suchantwort, das Verbot, Songtexte zu reproduzieren, und ein Vermeidungsverhalten bei "verdrängenden Zusammenfassungen" von Webinhalten deuten auf eine Reaktion auf Urheberrechtsbedenken hin. Willison bemängelt zudem eine Inkonsistenz zwischen dem offiziell angegebenen Trainingsdaten-Cutoff (März 2025) und dem im System-Prompt genannten (Januar 2025).
❓ Häufig gestellte Fragen
📚 Quellen
- Ars Technica: Hidden AI instructions reveal how Anthropic controls Claude 4
- Simon Willison's Weblog: Claude 4 System Prompt Analysis