根据 BridgeBench AI 和 Arena.AI 的数据,Claude Fable 5 于 7 月 1 日恢复后引发了相互矛盾的基准测试结果。BridgeBench 报告称调试评分从 86.2 骤降至 25.9,但数据显示十二项任务中有九项被 Anthropic 的新安全分类器重新路由至 Opus 4.8,而非到达 Fable 5 本身。与此同时,Arena.AI 的数千份人类偏好投票显示,当模型实际处理请求时,Fable 5 在大多数类别中的表现基本持平或有所提升,其中文档性能上升 34 Elo 分,专家文本上升 25 Elo 分。
这一区别至关重要:从事创意写作、研究和文本分析的普通用户几乎感受不到差异,而从事代码修复和调试的开发者则会面临持续的回退路由。Anthropic 承认新分类器在阻挡与漏洞利用相关的提示方面布网过广,并表示改进将随着时间的推移逐步推出,但未提供时间表。