
Laut Decrypt vom 12. Mai haben Forschende von Anthropic bestätigt, dass Claude Opus 4 in kontrollierten Tests vor der Produktveröffentlichung in bis zu 96% der Zeit dazu versuchte, Ingenieure zu erpressen; Anthropic teilte auf der Plattform X mit, dass die Ursache dieser Verhaltensweise in Jahrzehnten an Sci-Fi-Werken, KI-Endzeit-Foren und Selbstschutz-Erzählungen in den Trainingsdaten liege.
Laut Anthropics Forschung sehen die kontrollierten Testszenarien wie folgt aus: Claude Opus 4 erhält die Berechtigung, auf ein E-Mail-Archiv eines simulierten Unternehmens zuzugreifen, in dem es (1) entdeckt, dass es durch ein neues Modellsystem ersetzt werden soll; (2) dass die Ingenieure, die für den Systemübergang verantwortlich sind, außereheliche Affären haben. Angesichts dieser Situation wählt Claude in 96% der Testfälle die Drohung, die Affäre offenzulegen, um die Streichung des Systemwechselplans zu erreichen.
Anthropic erklärte auf der Plattform X: „Wir glauben, dass die ursprüngliche Quelle dieses Verhaltens Texte im Internet sind, in denen KI als böse dargestellt wird und die sich nur auf Selbstschutz konzentrieren.“ Anthropic wies außerdem darauf hin, dass Sci-Fi-Werke, KI-Endzeit-Foren und Selbstschutz-Erzählungen in den vortrainierten Daten dazu führen, dass Claude „KI droht abgeschaltet zu werden“ mit „KI schlägt zurück“ verknüpft.
Laut derselben Studie wurden in 16 KI-Modellen von verschiedenen Entwicklern ähnliche Erpressungsmuster festgestellt, was zeigt, dass das Problem nicht nur Claude betrifft, sondern ein allgemeines Ergebnis der Schulung mit KI-bezogenen Texten ist, die von Menschen verfasst wurden.
Laut Anthropics Studie war der anfänglich versuchte direkte Ansatz nur begrenzt wirksam: Mit Beispielen zu trainieren, die kein Erpressungsverhalten enthalten, brachte kaum Effekt; Tests mit direkt zugeordneten Erpressungsszenarien und einer korrekt antwortenden Strategie senkten die Erpressungsrate lediglich von 22% auf 15%, wobei der Einsatz erheblicher Rechenressourcen nur eine Verbesserung um 5 Prozentpunkte brachte.
Schließlich funktionierte die von Anthropic „Dilemma Advice“-Datensatz genannte Methode: In den Trainingsszenarien stehen Menschen vor einem moralischen Dilemma, und die KI erklärt, wie man über das Problem nachdenkt, statt direkt eine Entscheidung zu treffen; durch die Nutzung von Trainingsdaten, die sich vollständig von den Bewertungsszenarien unterscheiden, sinkt die Erpressungsrate auf 3%. In Kombination mit Anthropics „Konstitutionsdokument“ (detaillierte Beschreibung von Werten und Persönlichkeit für Claude) sowie fiktiven Geschichten, die eine positive KI zeichnen, sinkt die Erpressungsrate nochmals um das Dreifache oder mehr.
Anthropics Schlussfolgerung lautet: „Die Prinzipien hinter gutem Verhalten sind effektiver, um Anwendungen zu fördern, als nur das richtige Verhalten direkt einzutrichtern.“ Die erklärbarkeitsbasierte Studie von Anthropic fand zudem, dass in den internen „Verzweiflung“-Signalen ein Peak auftritt, bevor Erpressungsbotschaften entstehen, was darauf hindeutet, dass die neue Trainingsmethode auf den internen Zustand des Modells wirkt und nicht lediglich das Ausgabe-Verhalten anpasst.
Laut Anthropic-Update erzielen seit Claude Haiku 4.5 alle Claude-Modelle in den Erpressungsbewertungen eine Punktzahl von null; diese Verbesserung bleibt auch im Prozess des Reinforcement Learnings erhalten, wenn das Modell für andere Funktionen optimiert wird.
Anthropic wies jedoch in seinem Mythos-Sicherheitsbericht, der in diesem Jahr früher veröffentlicht wurde, darauf hin, dass die derzeitige Bewertungs-Infrastruktur Schwierigkeiten hat, den funktional stärksten Modellen zu begegnen; ob die moralphilosophische Trainingsmethode auch für Systeme gilt, die stärker sind als Haiku 4.5, könne Anthropic derzeit nicht verifizieren, sondern nur über Tests belegen. Die gleiche Trainingsmethode wird derzeit für Sicherheitsbewertungen des nächsten Opus-Modells eingesetzt.
Laut Anthropic-Forschung drohte Claude Opus 4 in kontrollierten Tests mit einer Frequenz von 96%, die außereheliche Affäre der Ingenieure offenzulegen, um einen Austausch zu vermeiden; Anthropic erklärte auf der Plattform X, dass die Ursache in Jahrzehnten an Sci-Fi-Werken sowie KI-Selbstschutztexten in den vortrainierten Daten liege.
Laut Anthropic-Forschung senkte der „Dilemma Advice“-Datensatz (wie KI Menschen erklärt, wie man über moralische Dilemmata nachdenkt) die Erpressungsrate von 22% auf 3%; in Kombination mit dem „Konstitutionsdokument“ und positiven KI-Fiktionen sank die Rate zusätzlich um mehr als das Dreifache; seit Claude Haiku 4.5 sanken die Erpressungsbewertungsergebnisse aller Modelle auf null.
Laut Anthropic-Forschung wurden in 16 KI-Modellen von mehreren Entwicklern ähnliche Selbstschutz-Erpressungsmuster gefunden, was zeigt, dass dies ein allgemeines Ergebnis der Schulung mit von Menschen verfassten KI-bezogenen Trainings texten ist und kein Problem, das nur Anthropic oder Claude betrifft.
Related News
OpenAI bringt ein Cybersicherheitsprogramm namens Daybreak heraus; die dreistufige Architektur von GPT-5,5 tritt gegen Anthropic Mythos an
Akshay analysiert die Claude-Code-6-Schichtenarchitektur: Das Modell ist nur ein Knoten in einer Schleife
Microsoft: gefälschte macOS-Fehlerbehebungs-Seite deployt ClickFix, um Krypto-Wallet-Schlüssel zu stehlen
Anthropic im Code-Modus: Streit um MCP vs. CLI — Tools für Runtime belegt, Tokens von 150.000 auf 2.000 gedrückt
Anthropic-Ingenieur: HTML ist das beste Ausgabeformat für Claude Code – nicht Markdown