Claude Fable 5 在基准测试中性能下降,但安全分类器——而非模型——被归咎于路由失败。

根据 BridgeBench AI 和 Arena.AI 的数据,Claude Fable 5 于 7 月 1 日恢复后引发了相互矛盾的基准测试结果。BridgeBench 报告称调试评分从 86.2 骤降至 25.9,但数据显示十二项任务中有九项被 Anthropic 的新安全分类器重新路由至 Opus 4.8,而非到达 Fable 5 本身。与此同时,Arena.AI 的数千份人类偏好投票显示,当模型实际处理请求时,Fable 5 在大多数类别中的表现基本持平或有所提升,其中文档性能上升 34 Elo 分,专家文本上升 25 Elo 分。

这一区别至关重要:从事创意写作、研究和文本分析的普通用户几乎感受不到差异,而从事代码修复和调试的开发者则会面临持续的回退路由。Anthropic 承认新分类器在阻挡与漏洞利用相关的提示方面布网过广,并表示改进将随着时间的推移逐步推出,但未提供时间表。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论