Gate Newsの告知、4月22日——プリンストン大学の博士課程学生、Yifan Zhangが、4月19日の予告に続いてX上でDeepSeek V4の完全な技術仕様を明らかにした。V4は総パラメータ数1.6兆のほか、パラメータ2850億の軽量版V4-Liteを備える。
このモデルはDSA2のアテンション・メカニズムを採用しており、V3.2のDeepSeekの既存DSA (DeepSeek Sparse Attention)と、512次元のヘッド埋め込みを用いたNSA (Native Sparse Attention)を組み合わせる。さらに、Sparse Multi-Query Attention (MQA)とSliding Window Attention (SWA)を組み合わせる。MoE (Mixture of Experts)の層には、順伝播の1回あたり6つが活性化される384人のエキスパートが含まれ、Fused MoE Mega-Kernelを使用する。残差接続はHyper-Connectionsアーキテクチャを用いる。
初めて明らかにされたトレーニングの詳細には、Muonオプティマイザの使用が含まれており、(applying Newton-Schulz orthogonalization to momentum updates)、32Kトークンの事前学習コンテキスト・ウィンドウ、強化学習中のKLダイバージェンス補正を伴うGRPO (Group Relative Policy Optimization)が明らかにされた。最終的なコンテキスト・ウィンドウは100万トークンまで拡張される。モデルはテキストのみ。
ZhangはDeepSeekに雇用されておらず、同社は開示された情報について公式にはコメントしていない。