ゲートニュース速報、4月24日—DeepSeekは、MITライセンスのもとでオープンソースのV4シリーズモデルをリリースしました。重みは現在Hugging FaceおよびModelScopeで利用可能です。このシリーズには2つのモーダル・エキスパート (MoE)モデルが含まれています。V4-Proは総パラメータ1.6兆で、1トークンあたり490億が有効化され、V4-Flashは総パラメータ2840億で、1トークンあたり130億が有効化されます。両方とも1,000,000トークンのコンテキストウィンドウをサポートします。
アーキテクチャには3つの重要なアップグレードがあります。圧縮されたスパース注意 (CSA) と大幅に圧縮された注意 (HCA) を組み合わせたハイブリッド注意メカニズムにより、ロングコンテキストのオーバーヘッドを大幅に削減—V4-Proの1Mコンテキストにおける推論FLOPsはV3.2のわずか27%であり、推論中に歴史情報を格納するためのKVキャッシュ (VRAM) はV3.2の10%にとどまります。従来の残差接続に代わり、層間の信号伝播の安定性を高めるマニフォールド制約付きハイパーコネクション (mHC)。そして、より速い学習収束のためのMuonオプティマイザです。事前学習では32兆トークン以上のデータを使用しました。
事後学習は2段階のアプローチを採用します。まず、教師あり微調整 (SFT) とGRPO強化学習によりドメイン固有のエキスパートを訓練し、その後オンライン蒸留によってそれらを単一モデルに統合します。V4-Pro-Max (最高推論モード)は、トップクラスのコーディングベンチマークを備え、推論およびエージェントタスクにおけるクローズドソースのフロンティアモデルとのギャップを大幅に縮めた、最強のオープンソースモデルであると主張しています。V4-Flash-Maxは、十分な計算予算がある場合にProレベルの推論性能を実現しますが、純粋な知識および複雑なエージェントタスクにおいてはパラメータ規模によって制約を受けます。重みは混合精度のFP4+FP8で保存されます。