DeepSeek V4 训练数据翻倍至 33T,导致不稳定性并延迟了发布

Gate News 消息,4月24日——DeepSeek 的 V4 技术报告显示,V4-Flash 和 V4-Pro 分别在 32T 和 33T token 上进行了预训练,相较于 V3 使用的约 15T token 翻了一倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”,损失尖峰反复出现,是由于 Mixture-of-Experts (MoE) 层中的异常;路由机制本身会加剧这些异常,而简单的回滚也无法解决问题。

DeepSeek 目前已落地到实际训练中的两项解决方案:预判式路由(Anticipatory Routing),它将路由索引计算与骨干网络更新解耦,并仅在检测到损失尖峰时自动触发 (增加约 20% 的开销),以及 SwiGLU 夹持(SwiGLU Clamping),通过直接将激活值夹持到固定范围来抑制异常。报告称这两种方案都有效,但承认“底层原理仍未被充分理解”。

Susan Zhang(谷歌 DeepMind 研究员,曾在 Meta AI 和 OpenAI 工作)评论称,由于训练数据翻倍所触发的不稳定性“解释了延迟”。她将这两种解决方案描述为“补丁(band-aids)”,同时也承认了 DeepSeek 的技术透明度。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论