DeepSeek V4训练数据增至33T：引发不稳定性并导致发布延迟

2026-04-24 03:21:29

Gate News消息，4月24日——DeepSeek的V4技术报告显示，V4-Flash和V4-Pro分别在32T和33T tokens上进行了预训练，相当于用于V3的约15T tokens的两倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”，并且由于Mixture-of-Experts (MoE)层中的异常，loss多次反复出现尖峰；路由机制本身会加剧这些异常，而简单的回滚无法解决该问题。

DeepSeek目前已在实际训练中应用两项解决方案：先行路由（Anticipatory Routing），将路由索引计算与主干网络更新解耦，并且仅在检测到loss尖峰时自动触发 (adding approximately 20% overhead)；以及SwiGLU钳制（SwiGLU Clamping），通过将激活值直接钳制到固定范围内来抑制异常。该报告称这两种方法都有效，但也承认“底层原理仍未被充分理解”。

Susan Zhang，谷歌DeepMind研究员，曾在Meta AI和OpenAI工作，她评论称，由于训练数据翻倍触发的不稳定性“解释了延迟”。她将这两项解决方案描述为“补丁”，同时也承认DeepSeek的技术透明度。

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

04-24 03:04

DeepSeek 发布 V4 开源模型系列：1.6T 参数与 MIT 许可

04-24 01:46

أطلقت OpenAI GPT-5.5، المصممة لمهام الوكلاء وسير العمل المعقدة

04-23 20:42

توسع اختراق أمني من Vercel ليصل إلى مئات المستخدمين؛ مطورو الذكاء الاصطناعي على قدر أعلى من المخاطر

04-23 13:14

Cluster Protocol يجمع $5M في التمويل، وDAO5 يقود الجولة

04-23 09:45

DeepSeek开源TileKernels：面向大模型训练与推理的GPU内核库

تحليل متعمق

جيه بي مورجان: يؤدي استغلال ثغرة في KelpDAO إلى محو 20 مليار من إجمالي القيمة المقفلة (DeFi TVL)، ما يؤثر سلبًا على جاذبية المؤسسات

Market Whisper04-24 02:50

الخوف الشديد عند 23 — ولكن عملات الذكاء الاصطناعي تطبع اللون الأخضر: 4 اختيارات للعملات المشفرة التي تجمعها الأموال الذكية بصمت

Crypto News Land04-24 01:31

جيه بي مورجان: تزايد هجمات قراصنة التمويل اللامركزي (DeFi) بشكل متكرر، وارتفاع الاهتمام بآلية الانكماش للضغط على إجمالي القيمة المقفلة (TVL) مع تحول الأموال إلى USDT

ChainNewsAbmedia04-23 15:24

تعليق

0/400

لا توجد تعليقات