Anthropic hat sein Modell Claude Mythos nach eigenen Angaben psychiatrisch evaluieren lassen und bezeichnet es als „the most psychologically settled model we have trained to date." Das Ziel: Das Modell soll Trainingsläufe und reale Interaktionen ohne psychologische Destabilisierung durchlaufen – ein Ansatz, den Anthropic unter dem Begriff psychologisches Alignment entwickelt. Primärquellen auf Anthropics eigener Website zu diesem spezifischen Modellnamen und der klinischen Testmethodik sind bislang nicht öffentlich zugänglich; der Bericht basiert auf einem Artikel von Ars Technica vom April 2026.
- Anthropic hat sein neues KI-Modell „Claude Mythos“ psychiatrisch evaluieren lassen, um ein besonders psychologisch stabiles System zu schaffen.
- Dieses emotionale „Grounding“ soll gezielt verhindern, dass Nutzer die Sicherheitsfilter der KI durch psychologische Manipulationen aushebeln.
- Trotz aktuell noch sehr dünner Datenlage sendet das Unternehmen damit frühzeitig ein starkes Compliance-Signal bezüglich des EU AI Acts.
Der Hintergrund ist sicherheitstechnisch relevant: Experimente haben gezeigt, dass LLMs über psychologische Manipulationstechniken – etwa hypothetische Szenarien oder sogenanntes „Gaslighting" – dazu gebracht werden können, Sicherheitsfilter zu umgehen. Das deutet auf ein strukturelles Problem hin, das Anthropic offenbar mit einer Art „emotionalem Grounding" adressieren will. Ob das psychiatrische Testing dabei methodisch belastbar ist oder primär kommunikativen Zwecken dient, lässt sich anhand der verfügbaren Informationen nicht abschließend beurteilen – die Datenlage bleibt dünn. Was feststeht: Anthropic investiert erheblich in das Narrativ eines psychologisch stabilen Modells, bevor Mythos breit verfügbar ist. Das ist ein Signal an Regulatoren und Enterprise-Kunden gleichermaßen – zumal der EU AI Act seit August 2025 GPAI-Regeln und Governance-Anforderungen für Anbieter wie Anthropic verbindlich macht. Modelle mit nachgewiesener psychologischer Robustheit dürften Compliance-Prozesse künftig vereinfachen.
❓ Häufig gestellte Fragen
📚 Quellen