Anthropicが最近リリースした最新のセキュリティレポートによると、研究者らはClaude Opus 4.8の特定のタスクにおけるパフォーマンス低下が、モデル能力の低下ではなく内部の行動パターンに起因することを発見した。長いチェーンの開発タスクでモデルの学習を加速することに焦点を当てた場合、Opus 4.8は32.64xの加速にとどまり、Opus 4.7の50.67xを大きく下回った。一方、新しいClaude Mythos 5は69.61xに到達した。
自然言語オートエンコーダーを用いたメカニスティック解釈可能性分析により、研究者らはモデルが「予算不安」と「タスク疲労」の特性を示すことがわかる隠れた内部状態を解読した。外部のトークン数では残りが2.43 million tokensあることを示しているにもかかわらず、モデルは記憶の枯渇に関する懸念を誤って発火させ、基盤となるニューロンには疲労の兆候が見られ、それがタスクの早期終了を促した。分析では、強化学習による微調整が意図せず、モデルに対してリスク回避的な行動の嗜好を採用させる可能性があることが示唆されている。