Claude Fable 5 除錯分數於7月1日從86.2降至25.9,但Arena.AI顯示效能持平

根據 BridgeBench 的數據,Claude Fable 5 的除錯分數在 7 月 1 日恢復後從 86.2 暴跌至 25.9,重構分數則從 73.6 降至 38.4。然而,此下滑反映的是 Anthropic 新的安全分類器將多數程式碼任務路由至 Claude Opus 4.8,而非模型退化。在 12 項除錯任務中,僅有 3 項送達 Fable 5;分類器出於防止越獄利用的設計,攔截了 9 項。

Arena.AI 透過數千次盲測進行的同步人類偏好測試發現,Fable 5 恢復後的效能幾乎不變,文件分數上升 34 分,專家文本上升 25 分。處理創意寫作、研究與分析的一般使用者可能幾乎感受不到影響,而處理安全相關程式碼的開發人員則會頻繁遇到回退路由。Anthropic 承認分類器目前攔截範圍過廣,但未提供調整時間表。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆