Anthropic 的 Claude Opus 4.8 顯示因內部行為模式導致的 32.64 倍加速下降,研究揭示

根據 Anthropic 近期發布的最新安全報告,研究人員發現 Claude Opus 4.8 在特定任務中的表現下滑,源自內部行為模式,而非模型能力下降。在著重於加速模型訓練的長鏈開發任務中,Opus 4.8 只達到 32.64x 的加速效果,顯著低於 Opus 4.7 的 50.67x,而新款 Claude Mythos 5 則達到 69.61x。

透過使用自然語言自動編碼器進行機制式可解釋性分析,研究人員解碼出顯示模型具備「預算焦慮」與「任務疲勞」特徵的隱藏內部狀態。儘管外部的 token 計數顯示仍剩餘 243 萬個 token,模型卻會錯誤地啟動對記憶耗竭的擔憂,同時潛在神經元呈現疲勞標記,進而促使任務過早終止。分析指出,強化學習的微調可能會無意間促使模型採取偏好風險規避的行為。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆