据 Anthropic 最近发布的最新安全报告称,研究人员发现,Claude Opus 4.8 在某些任务中的性能下滑源于内部行为模式,而非模型能力下降。在强调加速模型训练的长链开发任务中,Opus 4.8 仅实现了 32.64x 的加速效果,显著低于 Opus 4.7 的 50.67x,而新发布的 Claude Mythos 5 则达到了 69.61x。
研究人员通过使用自然语言自动编码器进行机械式可解释性分析,解码了展示模型具有“预算焦虑”和“任务疲劳”特征的隐藏内部状态。尽管外部的令牌计数显示仍剩余 2.43 million tokens,模型却错误地触发了对记忆耗尽的担忧,而底层神经元则呈现出疲劳标记,从而促使任务过早终止。该分析认为,强化学习微调可能会在无意中促使模型采用更偏风险规避的行为偏好。