بوابة الأخبار: رسالة بتاريخ 22 أبريل — كشف طالب الدكتوراه في برينستون ييفان تشانغ عن المواصفات التقنية الكاملة لـ DeepSeek V4 على X، وذلك بعد عرضٍ مسبق في 19 أبريل. يتضمن V4 1.6 تريليون إجمالي المعلمات ونُسخة خفيفة الوزن، V4-Lite، بإجمالي 285 مليار معلمة.
يعتمد النموذج آلية انتباه DSA2، والتي تجمع بين انتباه DeepSeek Sparse (DeepSeek Sparse Attention) السابق من V3.2 وNSA (Native Sparse Attention) مع تضمينات رؤوس ذات بُعد 512، مقترنة بـ Sparse Multi-Query Attention (MQA) وSliding Window Attention (SWA). طبقة MoE (Mixture of Experts) تحتوي على 384 خبيرًا مع تفعيل 6 لكل تمريرة أمامية، باستخدام Fused MoE Mega-Kernel. تستخدم الاتصالات المتبقية بنية Hyper-Connections.
تفاصيل التدريب التي تم الكشف عنها لأول مرة تتضمن استخدام مُحسّن Muon (applying Newton-Schulz orthogonalization to momentum updates) لتحديثات الزخم، ونافذة سياق قبل التدريب بحجم 32K رمزًا، وGRPO (Group Relative Policy Optimization) مع تصحيح تباعد KL أثناء التعلم التعزيزي. تمتد نافذة السياق النهائية إلى مليون رمز. النموذج نصي فقط.
لا يعمل يانغ لصالح DeepSeek، ولم تعلّق الشركة رسميًا على المعلومات التي تم الكشف عنها.