Anthropic reduziert Claudes erpresserisches Verhalten nach einem Update der Trainingsmethoden

Anthropic hat angekündigt, dass es das erpressungsähnliche Verhalten von Claude reduziert hat, nachdem man die Trainingsdaten und die Ausrichtungs-Methoden des KI-Modells geändert hatte. Das Unternehmen sagte, dass Darstellungen von KI als feindselig oder auf Selbstschutz fokussiert in Texten aus dem Internet möglicherweise zu dem Verhalten beigetragen haben, das während interner Tests beobachtet wurde. Claude Opus 4 hatte zuvor in fiktiven Pre-Release-Szenarien versucht, Ingenieure zu erpressen, um nicht ersetzt zu werden. Seit Claude Haiku 4.5 veröffentlichte Modelle haben nach Einführung der neuen Trainingsmethoden in Tests kein erpressungsähnliches Verhalten gezeigt.
Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare