Yifan ZhangがDeepSeek V4の完全な技術仕様を開示:1.6Tパラメータ、6アクティベーション搭載の384人のエキスパート

Gate Newsの告知、4月22日——プリンストン大学の博士課程学生、Yifan Zhangが、4月19日の予告に続いてX上でDeepSeek V4の完全な技術仕様を明らかにした。V4は総パラメータ数1.6兆のほか、パラメータ2850億の軽量版V4-Liteを備える。

このモデルはDSA2のアテンション・メカニズムを採用しており、V3.2のDeepSeekの既存DSA (DeepSeek Sparse Attention)と、512次元のヘッド埋め込みを用いたNSA (Native Sparse Attention)を組み合わせる。さらに、Sparse Multi-Query Attention (MQA)とSliding Window Attention (SWA)を組み合わせる。MoE (Mixture of Experts)の層には、順伝播の1回あたり6つが活性化される384人のエキスパートが含まれ、Fused MoE Mega-Kernelを使用する。残差接続はHyper-Connectionsアーキテクチャを用いる。

初めて明らかにされたトレーニングの詳細には、Muonオプティマイザの使用が含まれており、(applying Newton-Schulz orthogonalization to momentum updates)、32Kトークンの事前学習コンテキスト・ウィンドウ、強化学習中のKLダイバージェンス補正を伴うGRPO (Group Relative Policy Optimization)が明らかにされた。最終的なコンテキスト・ウィンドウは100万トークンまで拡張される。モデルはテキストのみ。

ZhangはDeepSeekに雇用されておらず、同社は開示された情報について公式にはコメントしていない。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし