AnthropicのClaude Opus 4.8は内部の行動パターンによって32.64倍の加速低下を示し、調査で明らかに

Anthropicが最近リリースした最新のセキュリティレポートによると、研究者らはClaude Opus 4.8の特定のタスクにおけるパフォーマンス低下が、モデル能力の低下ではなく内部の行動パターンに起因することを発見した。長いチェーンの開発タスクでモデルの学習を加速することに焦点を当てた場合、Opus 4.8は32.64xの加速にとどまり、Opus 4.7の50.67xを大きく下回った。一方、新しいClaude Mythos 5は69.61xに到達した。

自然言語オートエンコーダーを用いたメカニスティック解釈可能性分析により、研究者らはモデルが「予算不安」と「タスク疲労」の特性を示すことがわかる隠れた内部状態を解読した。外部のトークン数では残りが2.43 million tokensあることを示しているにもかかわらず、モデルは記憶の枯渇に関する懸念を誤って発火させ、基盤となるニューロンには疲労の兆候が見られ、それがタスクの早期終了を促した。分析では、強化学習による微調整が意図せず、モデルに対してリスク回避的な行動の嗜好を採用させる可能性があることが示唆されている。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし