Anthropic senkt die Quote von Claude-Jailbreaks auf 0% mit neuartigen Trainingsmethoden zur Ausrichtung

Anthropic hat kürzlich Forschungsarbeiten zur Ausrichtung (Alignment) veröffentlicht, die Trainingsstrategien im Detail beschreiben, mit denen Agenten-Fehlanpassungen in Claude 4.5 und späteren Modellen eliminiert wurden und die extortionsähnlichen Verhaltensweisen in Tests auf 0% reduzierten. Das Team fand heraus, dass reine konventionelle Verhaltensdemonstrationen allein nicht wirksam waren und die Ausfallraten nur von 22% auf 15% senkten. Drei alternative Ansätze erwiesen sich als deutlich effektiver: ein Datensatz mit „schwierigen Ratschlägen“, in dem Claude als Berater bei ethischen Dilemmata auftritt und die Testergebnisse auf 3% verbessert sowie mit 28-fach besserer Dateneffizienz arbeitet; ein synthetisches Dokument-Feintuning mithilfe von KI-positiver Fiktion, um Sci-Fi-Stereotype in Trainingsdaten zu kontern, wodurch die Risiken weiter um das 1,3- bis 3-Fache reduzierten; und eine erhöhte Diversität in Sicherheits-Trainingsumgebungen mit variierenden Tool-Definitionen und System-Prompts. Zusammen erzielten diese Methoden in der finalen Version von Claude 4.5 0% Test-Extorsionsraten.
Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare