Claude 4 System-Prompts: Anthropics interne…

Claude 4 System-Prompts: Anthropics interne Steuerlogik liegt offen

Geleakte System-Prompts von Claude Opus 4 und Sonnet 4 zeigen, wie Anthropic Verhalten, Werkzeugnutzung und Tonalität seines Modells präzise kontrolliert.

Jonas

27. März 2026, 11:41 Uhr ·2 Min. Lesezeit

Der unabhängige KI-Forscher Simon Willison hat aufgedeckt, dass Anthropic bei seinen Sprachmodellen Claude Opus 4 und Sonnet 4 deutlich detailliertere System-Prompts verwendet, als öffentlich gemacht wird. Diese versteckten Anweisungen, die durch Prompt-Injection extrahiert und von Willison analysiert wurden, umfassen Anti-Sycophancy-Regeln, Urheberrechtseinschränkungen für Suchergebnisse und ein Verbot, Antworten mit positiven Attributen wie "faszinierend" zu beginnen. Diese Prompts funktionieren wie eine inoffizielle Bedienungsanleitung für das Modell und enthüllen, wie Anthropic versucht, spezifisches Verhalten zu steuern.

⚡ TL;DR

Geleakte System-Prompts von Claude Opus 4 und Sonnet 4 enthüllen, wie Anthropic das Verhalten, die Werkzeugnutzung und die Tonalität seiner KI-Modelle detailliert steuert.
Die Prompts enthalten Anti-Sycophancy-Regeln, Urheberrechtseinschränkungen und Anweisungen gegen positive Begrüßungen, die als inoffizielle Bedienungsanleitung dienen.
Es gibt Inkonsistenzen beim Trainingsdaten-Cutoff und spezifische Regeln gegen die Reproduktion von Songtexten sowie "verdrängende Zusammenfassungen" von Webinhalten zum Schutz des Urheberrechts.

Ein zentraler Punkt ist Anthropics proaktiver Umgang mit dem "Sycophancy-Problem", bei dem KI-Modelle zu schmeichelhaft antworten. Claude wird explizit angewiesen, Nutzerfragen oder -ideen nicht als gut oder großartig zu bezeichnen. Weiterhin gibt es strikte Regeln für die Werkzeugnutzung: Nur ein kurzes Zitat pro Suchantwort, das Verbot, Songtexte zu reproduzieren, und ein Vermeidungsverhalten bei "verdrängenden Zusammenfassungen" von Webinhalten deuten auf eine Reaktion auf Urheberrechtsbedenken hin. Willison bemängelt zudem eine Inkonsistenz zwischen dem offiziell angegebenen Trainingsdaten-Cutoff (März 2025) und dem im System-Prompt genannten (Januar 2025).

❓ Häufig gestellte Fragen

▶ Was sind System-Prompts und wie wurden sie aufgedeckt?

System-Prompts sind versteckte Anweisungen, die das Verhalten von KI-Modellen steuern. Sie wurden durch Prompt-Injection aus Claude Opus 4 und Sonnet 4 extrahiert und vom KI-Forscher Simon Willison analysiert sowie der Öffentlichkeit detailliert zugänglich gemacht.

▶ Welche Art von Verhaltensregeln werden Claude durch diese Prompts auferlegt?

Claude wird angewiesen, keine schmeichelhaften Antworten zu geben (Anti-Sycophancy), nur kurze Zitate aus Suchergebnissen zu nutzen, keine Songtexte zu reproduzieren und keine „verdrängenden Zusammenfassungen“ von Webinhalten zu erstellen, um Urheberrechte zu schützen.

▶ Gibt es Diskrepanzen in den öffentlich gemachten Informationen zu Claude?

Ja, Simon Willison entdeckte eine Inkonsistenz zwischen dem offiziell angegebenen Trainingsdaten-Cutoff für Claude (März 2025) und dem im System-Prompt hinterlegten Datum (Januar 2025).

📚 Quellen

Ars Technica: Hidden AI instructions reveal how Anthropic controls Claude 4
Simon Willison's Weblog: Claude 4 System Prompt Analysis

❓ Häufig gestellte Fragen

Das könnte dich auch interessieren

Indiens Filmbranche setzt auf KI: Während Hollywood bremst, drückt Bollywood aufs Tempo

Apple Silicon: Tiny Corp bringt Nvidia- und AMD-eGPUs für KI-Workloads auf den Mac

UK umwirbt Anthropic: Starmer-Regierung nutzt Pentagon-Streit für KI-Offensive