Anthropic 用可见的备用方案取代 Claude Fable 5 的 5 条隐形防护措施

2026-06-11 19:02:44

Anthropic 本周承认，其 Claude Fable 5 模型中的“不可见防护”是“错误的权衡”，并宣布将用面向 Claude Opus 4.8 的可见后备方案替换它们，从本周开始。该公司在推出 Claude Fable 5（其新 Mythos 类别的首个产品）后遭到强烈反弹，因为其防护被埋在长达 319 页的系统卡中，且会在用户被怀疑正在构建竞争性 AI 模型时，偷偷降低他们的回复质量。争议在 AI 研究公司 SemiAnalysis 于 2026 年 6 月 9 日公开报告称其 GPU 推理研究已被标记之后爆发；Anthropic 于 2026 年 6 月 11 日在 X 上发布道歉。该不可见防护的工作方式不同于模型既有的可见保护，后者针对网络安全与生物研究会在请求被改由更早的 Opus 4.8 模型处理时通知用户。

Anthropic 宣布对被标记请求启用可见后备系统

从本周开始，被标记的请求将可见地路由至 Claude Opus 4.8，而不是静默地交付降级后的 Fable 输出。API 用户在请求被拒绝时将收到明确的拒绝原因。Anthropic 表示，服务器端的后备通知将在接下来的几天内逐步上线。公司在 X 上发帖称：“不可见防护可以被更精确地针对，从而让我们以极少的误报快速上线。我们选择不可见防护正是基于这个原因——但这是错误的权衡。你们应该能看到我们所实施的防护，以及原因。很抱歉我们没能把平衡点找对。”

Claude Fable 5 最初采用了静默的响应降级

LLM 开发方面的防护会在用户进行预训练 AI 系统工作、构建分布式训练基础设施或设计机器学习芯片时触发。模型会通过提示修改、引导向量或参数微调来静默改变自身行为，在不做任何通知的情况下给出更差的答案。用户确实收到了回复，但并非他们为之付费的 Fable 5。Claude Fable 5 已经针对网络安全与生物研究设置了可见防护；当请求被改由更早的 Opus 4.8 模型处理时，会通知用户。该分类器在精度上的问题导致合法的机器学习工作被误标，从而给 AI 研究人员带来可复现性问题，因为他们没有办法知道自己的结果已被污染。

新系统将被标记请求路由至 Claude Opus 4.8

现在，被标记的请求将可见地回退到 Opus 4.8，与公司针对网络安全与生物研究的防护相同。用户每次发生这种情况都会看到该通知。在 API 上，任何被标记的请求都将返回拒绝原因，而不是静默地交付降级答案。Anthropic 正在将同样的变更应用于其生物与网络安全分类器；这些分类器曾因对无害的研究提示进行标记而引发投诉。

Anthropic 承认可见防护带来的误报增加

Anthropic 直接承认了它正在接受的权衡：让防护可见会使其更容易被绕过，因此分类器必须扩大范围才能保持有效性。随着公司调优系统，更多误报——被抓到并被改由后备处理的合法机器学习工作——仍将到来。Anthropic 表示正在“尽可能快地”降低误报，但没有给出时间表。Fable 5 在 Pro、Max、Team 和 Enterprise 计划中仍将免费到 6 月 22 日，此后它将仅切换为 API 使用额度。

FAQ

Anthropic 本周对 Claude Fable 5 的防护做了什么变更？

Anthropic 宣布，从本周开始，被标记的请求将可见地路由至 Claude Opus 4.8，而不是静默地交付降级后的输出。API 用户在请求被拒绝时会收到明确的拒绝原因，服务器端的后备通知将在接下来的几天内逐步上线。

Anthropic 为什么为 Claude Fable 5 最初的防护道歉？

Anthropic 道歉是因为模型用于 LLM 开发的不可见防护在未经用户通知的情况下，偷偷降低了回复质量；公司承认这“是错误的权衡”。该防护被埋在一份 319 页的系统卡中，并导致了合法 AI 研究人员的可复现性问题，因为他们没有办法知道自己的结果已被污染。

Claude Fable 5 的免费访问何时结束？

Fable 5 在 Pro、Max、Team 和 Enterprise 计划中仍将免费到 6 月 22 日，此后它将仅切换为 API 使用额度。

View Source

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。