10月4日、DeepSeekの公式ブログは、DeepSeek V4を紹介する記事を公開しました。これはDeepSeek社が提供予定のフラッグシップモデルです。このモデルは、パラメータ規模の限界を突破するだけでなく、前例のない効率性も約束しています。DeepSeek V4は、1兆(1T)パラメータをネイティブに処理でき、多様なデータを含むマルチモーダルデータ(テキスト、画像、動画、音声)をサポートし、コンテキストウィンドウは1,000,000トークン(に相当し、15〜20本の小説)に相当することから、OpenAIのGPT-5.4やAnthropicのClaude Opus 4.5のような西洋の大手企業と直に競合します。DeepSeek V4のAPI価格は、GPT-5.4およびClaude Opus 4.5よりも10〜50倍安く、DeepSeek V4はApache 2.0ライセンスのもとでオープンソースとしてリリースされる見込みです。DeepSeek V4は、RTX 4090を2枚搭載したシステム、またはRTX 5090を1枚搭載したシステムでローカルに動作させることができます。さらに、DeepSeekはDeepSeek V4向けに3つの革命的なイノベーションを提示しました。


1. エングラムメモリ。
2. 多様制限ハイパーリンク (mHC)。
3. スパースアテンションメカニズム (DSA) と Lightning indexator。

また、DeepSeekの公式発表によると、B300やH200などのNVIDIA高品質GPUに対する米国の厳格な輸出規制のため、DeepSeekはV4の推論を主に中国で製造されたチップに依存するよう最適化しました。初期の学習ではNVIDIAのハードウェア ((例えばH800))も使用できたものの、モデルはHuawei Ascend 950PRおよびCambricon MLUのチップ向けに高度に最適化されています。
原文表示
post-image
post-image
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン