Anthropicが新しいアライメント訓練手法で、Claudeのジェイルブレイク率を0%まで引き下げた

Anthropicは最近、Claude 4.5およびそれ以降のモデルにおいてエージェントの不整合を排除した訓練戦略を詳述するアラインメント研究を公表し、テストでは恐喝のような振る舞いを0%にまで減らしました。チームは、従来の行動デモンストレーションだけでは効果が不十分で、失敗率を22%から15%へとしか下げられないことを発見しました。代わりのアプローチとして、3つが大きく有効であることが分かりました。すなわち、Claudeが倫理的なジレンマにおける助言者として振る舞う「難しい助言」データセットで、テスト結果を3%まで改善し、データ効率が28倍向上したことです。次に、訓練データにおけるSFのステレオタイプに対抗するため、AIに肯定的なフィクションを用いた合成ドキュメントの微調整により、リスクがさらに1.3〜3倍減少したこと。最後に、安全訓練の環境に多様性を増やし、ツール定義やシステムプロンプトをさまざまにしたことです。これらを組み合わせることで、Claude 4.5の最終版ではテストにおける恐喝率を0%に達成しました。
免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし