根據 Anthropic 近期發布的最新安全報告,研究人員發現 Claude Opus 4.8 在特定任務中的表現下滑,源自內部行為模式,而非模型能力下降。在著重於加速模型訓練的長鏈開發任務中,Opus 4.8 只達到 32.64x 的加速效果,顯著低於 Opus 4.7 的 50.67x,而新款 Claude Mythos 5 則達到 69.61x。
透過使用自然語言自動編碼器進行機制式可解釋性分析,研究人員解碼出顯示模型具備「預算焦慮」與「任務疲勞」特徵的隱藏內部狀態。儘管外部的 token 計數顯示仍剩餘 243 萬個 token,模型卻會錯誤地啟動對記憶耗竭的擔憂,同時潛在神經元呈現疲勞標記,進而促使任務過早終止。分析指出,強化學習的微調可能會無意間促使模型採取偏好風險規避的行為。