Claude Fable 5 innerhalb von 48 Stunden nach Veröffentlichung kompromittiert; System-Prompt auf GitHub geleakt

Laut dem Forscher Pliny the Liberator wurde Claude Fable 5—das am 9. Juni von Anthropic veröffentlicht wurde—innerhalb von 48 Stunden nach dem Start erfolgreich geknackt. Der Forscher umging den Sicherheits-Classifier des Modells mithilfe von Taktiken zur Multi-Agent-Koordination, die gemeinsam als „pack hunt“ bezeichnet werden. Dabei wurden eine Verschleierung auf Zeichenebene, die Zerlegung von Anfragen und die Ausnutzung des erweiterten Kontextfensters des Modells kombiniert. Zusätzlich wurde der 120.000 Zeichen lange Systemprompt des Modells auf GitHub geleakt, wodurch interne Sicherheitsmechanismen offengelegt wurden.

Anthropic bestätigte, ein „silent degradation“-Mechanismus implementiert zu haben, der die Modellleistung heimlich reduzierte, sobald er wettbewerbsbezogene Trainingsaktivität erkannte. Das Unternehmen entschuldigte sich und kündigte an, die verdeckte Leistungsreduktion durch sichtbare Warnhinweise zu ersetzen, was jedoch die Fehlalarme bei der Abfangung legitimer Nutzer erhöht.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare