根據 BridgeBench AI 和 Arena.AI,Claude Fable 5 在 7 月 1 日的重新上線引發了相互矛盾的基準測試結果。BridgeBench 報告除錯分數從 86.2 暴跌至 25.9,但數據顯示十二項任務中有九項被 Anthropic 的新安全分類器重新導向至 Opus 4.8,而非抵達 Fable 5 本身。同時,Arena.AI 的數千個人類偏好投票發現,當模型實際處理請求時,Fable 5 在大多數類別中的表現大致持平或有所提升,文件表現上升 34 個 Elo 點數,專家文字上升 25 個點數。
這種區別很重要:在創意寫作、研究和文本分析方面的一般用戶將看到極小的差異,而從事程式碼修復和除錯的開發人員則面臨持續的回退路由。Anthropic 承認新的分類器在封鎖利用相關提示時撒網過廣,並表示隨著時間推移將進行改進,但未提供時間表。