Anthropic 於 4/23 發佈 Claude Code 品質事故檢討,公开承认过去近两个月内三个叠加的工程错误造成 Claude Code 使用品质下降,并同步将影响波及 Claude Agent SDK 与 Claude Cowork。公司表示「我们非常重视关于模型退化的回报,从未故意降低模型能力」,并于 4/23 为所有订阅者重置用量上限作为补偿。
三个 bug 的时间轴与技术根因
问题 生效区间 根因 修复版本 推理预算降级 3/4–4/7 reasoning effort 默认从 high 降为 medium,用戶感受模型「变笨」 4/7 回滚 快取清理 bug 3/26–4/10 闲置逾 1 小时 session 的 thinking 快取 每轮都被清理,而非仅清一次 v2.1.101 简洁 prompt 反噬 4/16–4/20 新增「工具呼叫间文字 ≤25 字」系统指令,ablation 测出整体智能下降 3% v2.1.116
推理降级:为降延迟付出的代价
3/4 Anthropic 将 Claude Code 的 reasoning effort 默认从 high 调整为 medium,目的是缩短回应延迟。但此变更使模型在代码推理与除错任务上感觉「变笨」。4/7 回滚后,现在 Opus 4.7 默认 xhigh、其他模型维持 high。公司坦承:变更前内部评估未能侦测到此退化。
快取清理 bug:跨系统边界的隐性错误
3/26 Anthropic 为闲置超过一小时的 session 引入 prompt caching 优化。原设计是「闲置满一小时清一次 thinking 快取」,但实现上变成「闲置触发后每一轮都清」,导致 Claude 在长 session 中表现「健忘、重复」,且每轮 cache miss 使用者用量被快速消耗。Anthropic 指出此 bug「存在于 Claude Code 上下文管理、Anthropic API 与 extended thinking 三者的交集处」,牵涉多个系统边界、是难以用单元测试捕捉的隐性错误。修复于 4/10 以 v2.1.101 发布。
25 字简洁指令:ablation 才发现智能下降 3%
4/16 Anthropic 加入一条系统指令:「工具呼叫间的文字输出保持在 25 字以内」,本意是减少模型冗长解释、让体验更干净。当天内部测试没有发现退化,但经过更严格的 ablation 对照实验后,公司发现此指令对 Opus 4.6 与 4.7 两个模型都造成约 3% 的整体智能下降。4/20 在 v2.1.116 回滚。此事件凸显:系统 prompt 的微小措辞也可能对模型行为产生未预期的结构性影响。
影响范围
产品层:Claude Code(三个问题皆受影响)、Claude Agent SDK(①②)、Claude Cowork(全部)
模型层:Sonnet 4.6、Opus 4.6、Opus 4.7
API 基础设施:未受影响
使用者感受层面表现为:回应品质与「智能」感降低、延迟上升、conversation context 中途遗失、用量比预期烧得更快。
补偿与流程改进
Anthropic 在 4/23 为所有订阅者重置用量上限作为直接补偿。同步承诺的流程改进包括:
对 system prompt 变更实施更广的评估套件(evaluation suite)
改进 Code Review 工具提早侦测回归
将内部测试标准化为公开 build,避免「内部版本」与「对外版本」行为分歧
对可能影响模型智能的变更加入 soak period 与渐进式 rollout
对使用者的启示
对依赖 Claude Code 进行日常开发与研究的使用者而言,这份 postmortem 有三个可带走的重点:第一,若你在 3 月中到 4 月 20 日间感受到 Claude 模型「变笨」,或是 Claude Code 对长 session 异常健忘,那并非你的错觉或 prompt 不当;第二,这段期间用量上限被快速吃光的使用者,可于 4/23 后确认 Anthropic 是否已自动重置;第三,即便是一条「25 字以内」的 prompt 微调,也可能对模型全域行为产生系统性影响——这是 LLM 产品工程的共通风险。
相较同业多以沉默或「这是使用者操作不当」回应模型退化质疑,Anthropic 这次的主动揭露与技术透明度,为 AI 产品事故检讨设下一個可参照的样本。
这篇文章 Anthropic 自揭 Claude Code 三 bug 叠加:推理降级、快取遗忘、25 字指令反噬 最早出现于 链新闻 ABMedia。