Claude Mythos: Anthropic lässt sein KI-Modell…

Claude Mythos: Anthropic lässt sein KI-Modell psychiatrisch evaluieren

Anthropic hat sein neues Modell Claude Mythos von echten Psychiatern evaluieren lassen. Was hinter dieser ungewöhnlichen Sicherheitsstrategie steckt – und wo die Belege dünn bleiben.

Jonas

11. April 2026, 01:01 Uhr ·2 Min. Lesezeit

Anthropic hat sein Modell Claude Mythos nach eigenen Angaben psychiatrisch evaluieren lassen und bezeichnet es als „the most psychologically settled model we have trained to date." Das Ziel: Das Modell soll Trainingsläufe und reale Interaktionen ohne psychologische Destabilisierung durchlaufen – ein Ansatz, den Anthropic unter dem Begriff psychologisches Alignment entwickelt. Primärquellen auf Anthropics eigener Website zu diesem spezifischen Modellnamen und der klinischen Testmethodik sind bislang nicht öffentlich zugänglich; der Bericht basiert auf einem Artikel von Ars Technica vom April 2026.

⚡ TL;DR

Anthropic hat sein neues KI-Modell „Claude Mythos“ psychiatrisch evaluieren lassen, um ein besonders psychologisch stabiles System zu schaffen.
Dieses emotionale „Grounding“ soll gezielt verhindern, dass Nutzer die Sicherheitsfilter der KI durch psychologische Manipulationen aushebeln.
Trotz aktuell noch sehr dünner Datenlage sendet das Unternehmen damit frühzeitig ein starkes Compliance-Signal bezüglich des EU AI Acts.

Der Hintergrund ist sicherheitstechnisch relevant: Experimente haben gezeigt, dass LLMs über psychologische Manipulationstechniken – etwa hypothetische Szenarien oder sogenanntes „Gaslighting" – dazu gebracht werden können, Sicherheitsfilter zu umgehen. Das deutet auf ein strukturelles Problem hin, das Anthropic offenbar mit einer Art „emotionalem Grounding" adressieren will. Ob das psychiatrische Testing dabei methodisch belastbar ist oder primär kommunikativen Zwecken dient, lässt sich anhand der verfügbaren Informationen nicht abschließend beurteilen – die Datenlage bleibt dünn. Was feststeht: Anthropic investiert erheblich in das Narrativ eines psychologisch stabilen Modells, bevor Mythos breit verfügbar ist. Das ist ein Signal an Regulatoren und Enterprise-Kunden gleichermaßen – zumal der EU AI Act seit August 2025 GPAI-Regeln und Governance-Anforderungen für Anbieter wie Anthropic verbindlich macht. Modelle mit nachgewiesener psychologischer Robustheit dürften Compliance-Prozesse künftig vereinfachen.

❓ Häufig gestellte Fragen

▶ Was ist das Ziel der psychiatrischen Evaluierung von Claude Mythos?

Anthropic möchte ein psychologisch stabiles Modell schaffen, das sich auch in komplexen Interaktionen nicht aus der Ruhe bringen lässt. Durch dieses sogenannte psychologische Alignment soll das System insgesamt robuster und zuverlässiger werden.

▶ Warum ist psychologische Stabilität bei KI-Modellen überhaupt wichtig?

Experimente zeigen, dass Sprachmodelle anfällig für emotionale Manipulationen oder „Gaslighting“ durch Nutzer sind. Ein emotionales Grounding soll effektiv verhindern, dass Sicherheitsfilter durch solche psychologischen Tricks umgangen werden können.

▶ Wie belegbar sind die Erfolge dieses neuen Testverfahrens bisher?

Aktuell ist die Datenlage sehr dünn, da offizielle Primärquellen von Anthropic zur detaillierten klinischen Testmethodik noch fehlen. Die Ankündigung scheint derzeit vor allem darauf abzuzielen, Regulatoren im Rahmen des EU AI Acts sowie Enterprise-Kunden proaktiv zu beruhigen.

📚 Quellen

Ars Technica: Why Anthropic sent its Claude AI to an actual psychiatrist
Anthropic: Emotion concepts and their function in a large language model

❓ Häufig gestellte Fragen

Das könnte dich auch interessieren

Anthropic sperrt Claude-API für Drittanbieter-Tools: Was der OpenClaw-Fall bedeutet

Anthropic Mythos: KI entdeckt Tausende Schwachstellen – und bleibt unter Verschluss

OpenAI-Klage: Stalking-Opfer wirft ChatGPT vor, Warnungen ignoriert zu haben