Anthropic 本周承认,其 Claude Fable 5 模型中的“不可见防护”是“错误的权衡”,并宣布将用面向 Claude Opus 4.8 的可见后备方案替换它们,从本周开始。该公司在推出 Claude Fable 5(其新 Mythos 类别的首个产品)后遭到强烈反弹,因为其防护被埋在长达 319 页的系统卡中,且会在用户被怀疑正在构建竞争性 AI 模型时,偷偷降低他们的回复质量。争议在 AI 研究公司 SemiAnalysis 于 2026 年 6 月 9 日公开报告称其 GPU 推理研究已被标记之后爆发;Anthropic 于 2026 年 6 月 11 日在 X 上发布道歉。该不可见防护的工作方式不同于模型既有的可见保护,后者针对网络安全与生物研究会在请求被改由更早的 Opus 4.8 模型处理时通知用户。
Anthropic 宣布对被标记请求启用可见后备系统
从本周开始,被标记的请求将可见地路由至 Claude Opus 4.8,而不是静默地交付降级后的 Fable 输出。API 用户在请求被拒绝时将收到明确的拒绝原因。Anthropic 表示,服务器端的后备通知将在接下来的几天内逐步上线。公司在 X 上发帖称:“不可见防护可以被更精确地针对,从而让我们以极少的误报快速上线。我们选择不可见防护正是基于这个原因——但这是错误的权衡。你们应该能看到我们所实施的防护,以及原因。很抱歉我们没能把平衡点找对。”
Claude Fable 5 最初采用了静默的响应降级
LLM 开发方面的防护会在用户进行预训练 AI 系统工作、构建分布式训练基础设施或设计机器学习芯片时触发。模型会通过提示修改、引导向量或参数微调来静默改变自身行为,在不做任何通知的情况下给出更差的答案。用户确实收到了回复,但并非他们为之付费的 Fable 5。Claude Fable 5 已经针对网络安全与生物研究设置了可见防护;当请求被改由更早的 Opus 4.8 模型处理时,会通知用户。该分类器在精度上的问题导致合法的机器学习工作被误标,从而给 AI 研究人员带来可复现性问题,因为他们没有办法知道自己的结果已被污染。
新系统将被标记请求路由至 Claude Opus 4.8
现在,被标记的请求将可见地回退到 Opus 4.8,与公司针对网络安全与生物研究的防护相同。用户每次发生这种情况都会看到该通知。在 API 上,任何被标记的请求都将返回拒绝原因,而不是静默地交付降级答案。Anthropic 正在将同样的变更应用于其生物与网络安全分类器;这些分类器曾因对无害的研究提示进行标记而引发投诉。
Anthropic 承认可见防护带来的误报增加
Anthropic 直接承认了它正在接受的权衡:让防护可见会使其更容易被绕过,因此分类器必须扩大范围才能保持有效性。随着公司调优系统,更多误报——被抓到并被改由后备处理的合法机器学习工作——仍将到来。Anthropic 表示正在“尽可能快地”降低误报,但没有给出时间表。Fable 5 在 Pro、Max、Team 和 Enterprise 计划中仍将免费到 6 月 22 日,此后它将仅切换为 API 使用额度。
FAQ
Anthropic 本周对 Claude Fable 5 的防护做了什么变更?
Anthropic 宣布,从本周开始,被标记的请求将可见地路由至 Claude Opus 4.8,而不是静默地交付降级后的输出。API 用户在请求被拒绝时会收到明确的拒绝原因,服务器端的后备通知将在接下来的几天内逐步上线。
Anthropic 为什么为 Claude Fable 5 最初的防护道歉?
Anthropic 道歉是因为模型用于 LLM 开发的不可见防护在未经用户通知的情况下,偷偷降低了回复质量;公司承认这“是错误的权衡”。该防护被埋在一份 319 页的系统卡中,并导致了合法 AI 研究人员的可复现性问题,因为他们没有办法知道自己的结果已被污染。
Claude Fable 5 的免费访问何时结束?
Fable 5 在 Pro、Max、Team 和 Enterprise 计划中仍将免费到 6 月 22 日,此后它将仅切换为 API 使用额度。