DeepSeek V4训练数据增至33T:引发不稳定性并导致发布延迟

Gate News消息,4月24日——DeepSeek的V4技术报告显示,V4-Flash和V4-Pro分别在32T和33T tokens上进行了预训练,相当于用于V3的约15T tokens的两倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”,并且由于Mixture-of-Experts (MoE)层中的异常,loss多次反复出现尖峰;路由机制本身会加剧这些异常,而简单的回滚无法解决该问题。

DeepSeek目前已在实际训练中应用两项解决方案:先行路由(Anticipatory Routing),将路由索引计算与主干网络更新解耦,并且仅在检测到loss尖峰时自动触发 (adding approximately 20% overhead);以及SwiGLU钳制(SwiGLU Clamping),通过将激活值直接钳制到固定范围内来抑制异常。该报告称这两种方法都有效,但也承认“底层原理仍未被充分理解”。

Susan Zhang,谷歌DeepMind研究员,曾在Meta AI和OpenAI工作,她评论称,由于训练数据翻倍触发的不稳定性“解释了延迟”。她将这两项解决方案描述为“补丁”,同时也承认DeepSeek的技术透明度。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات