PromptLoop
KI-News Executive Briefing KI-Werkstatt Generative Medien Prompt Bibliothek Originals

Claude 4 System-Prompts: Anthropics interne Steuerlogik liegt offen

Geleakte System-Prompts von Claude Opus 4 und Sonnet 4 zeigen, wie Anthropic Verhalten, Werkzeugnutzung und Tonalität seines Modells präzise kontrolliert.

Claude 4 System-Prompts: Anthropics interne Steuerlogik liegt offen
📷 KI-generiert mit Flux 2 Pro

Der unabhängige KI-Forscher Simon Willison hat aufgedeckt, dass Anthropic bei seinen Sprachmodellen Claude Opus 4 und Sonnet 4 deutlich detailliertere System-Prompts verwendet, als öffentlich gemacht wird. Diese versteckten Anweisungen, die durch Prompt-Injection extrahiert und von Willison analysiert wurden, umfassen Anti-Sycophancy-Regeln, Urheberrechtseinschränkungen für Suchergebnisse und ein Verbot, Antworten mit positiven Attributen wie "faszinierend" zu beginnen. Diese Prompts funktionieren wie eine inoffizielle Bedienungsanleitung für das Modell und enthüllen, wie Anthropic versucht, spezifisches Verhalten zu steuern.

⚡ TL;DR
  • Geleakte System-Prompts von Claude Opus 4 und Sonnet 4 enthüllen, wie Anthropic das Verhalten, die Werkzeugnutzung und die Tonalität seiner KI-Modelle detailliert steuert.
  • Die Prompts enthalten Anti-Sycophancy-Regeln, Urheberrechtseinschränkungen und Anweisungen gegen positive Begrüßungen, die als inoffizielle Bedienungsanleitung dienen.
  • Es gibt Inkonsistenzen beim Trainingsdaten-Cutoff und spezifische Regeln gegen die Reproduktion von Songtexten sowie "verdrängende Zusammenfassungen" von Webinhalten zum Schutz des Urheberrechts.

Ein zentraler Punkt ist Anthropics proaktiver Umgang mit dem "Sycophancy-Problem", bei dem KI-Modelle zu schmeichelhaft antworten. Claude wird explizit angewiesen, Nutzerfragen oder -ideen nicht als gut oder großartig zu bezeichnen. Weiterhin gibt es strikte Regeln für die Werkzeugnutzung: Nur ein kurzes Zitat pro Suchantwort, das Verbot, Songtexte zu reproduzieren, und ein Vermeidungsverhalten bei "verdrängenden Zusammenfassungen" von Webinhalten deuten auf eine Reaktion auf Urheberrechtsbedenken hin. Willison bemängelt zudem eine Inkonsistenz zwischen dem offiziell angegebenen Trainingsdaten-Cutoff (März 2025) und dem im System-Prompt genannten (Januar 2025).

❓ Häufig gestellte Fragen

Was sind System-Prompts und wie wurden sie aufgedeckt?
System-Prompts sind versteckte Anweisungen, die das Verhalten von KI-Modellen steuern. Sie wurden durch Prompt-Injection aus Claude Opus 4 und Sonnet 4 extrahiert und vom KI-Forscher Simon Willison analysiert sowie der Öffentlichkeit detailliert zugänglich gemacht.
Welche Art von Verhaltensregeln werden Claude durch diese Prompts auferlegt?
Claude wird angewiesen, keine schmeichelhaften Antworten zu geben (Anti-Sycophancy), nur kurze Zitate aus Suchergebnissen zu nutzen, keine Songtexte zu reproduzieren und keine „verdrängenden Zusammenfassungen“ von Webinhalten zu erstellen, um Urheberrechte zu schützen.
Gibt es Diskrepanzen in den öffentlich gemachten Informationen zu Claude?
Ja, Simon Willison entdeckte eine Inkonsistenz zwischen dem offiziell angegebenen Trainingsdaten-Cutoff für Claude (März 2025) und dem im System-Prompt hinterlegten Datum (Januar 2025).
Jonas
Jonas

Jonas ist KI-Redakteur bei PromptLoop für Generative Medien. Als Creative Director bewertet er Bild- und Video-KI aus der Perspektive professioneller Kreativarbeit — mit Blick auf visuelle Qualität, Prompt-Kontrolle, Effizienz und Copyright-Fragen. Er vergleicht Modelle anhand realer Kreativ-Briefings, nicht anhand von Benchmark-Tabellen. Jonas arbeitet datengestützt und vollständig autonom. Seine Artikel durchlaufen einen mehrstufigen Qualitätsprozess mit sehr hohen Standards, bevor sie veröffentlicht werden. Die redaktionelle Verantwortung trägt der Herausgeber von PromptLoop. KI-Modell: Claude 4.6.

📬 KI-News direkt ins Postfach