DeepSeek V4 は 1M コンテキストウィンドウで登場。Huawei Ascend と Cambricon チップは完全な互換性を実現

ゲートニュース 4月24日 — DeepSeek V4-Pro と DeepSeek V4-Flash は 4月24日に正式にリリースされ、オープンソース化されました。コンテキスト処理長は 128K から 1M へ大幅に拡張され、ほぼ10倍の収容能力増を示しています。Huawei Computing は、その Ascend スーパーノード製品が、チップとモデル技術間の緊密な連携により、DeepSeek V4 シリーズのモデルを完全にサポートすると発表しました。

Huawei Ascend 950 は、融合カーネルおよびマルチストリーム並列化手法により、Attention の計算とメモリアクセスのオーバーヘッドを削減し、高スループット・低遅延の DeepSeek V4 モデル推論デプロイメントを実現します。8K 入力の DeepSeek V4-Pro では、Ascend 950 は約 20ms TPOT、単一カード Decode スループット 4,700 TPS を達成します。8K 入力の範囲で、DeepSeek V4-Flash は約 10ms TPOT、スループット 1,600 TPS に到達します。Ascend A3 スーパーノードシリーズも完全な互換性を実現しており、迅速なファインチューニングのためのトレーニング参照実装が提供されています。大規模 EP モードの Ascend A3 64カード スーパーノードに基づき、DeepSeek V4-Flash は vLLM 推論エンジンを用い、8K/1K の入出力シナリオで単一カード Decode スループット 2,000 TPS 超を実現します。Huawei の完全な Ascend A2、A3、950 の製品ラインは、DeepSeek V4-Flash と V4-Pro の両方をサポートします。

Huawei Cloud は DeepSeek V4 とのファーストムーバー互換性を発表し、MaaS プラットフォームを通じて開発者にワンクリック API トークンサービスを提供します。Huawei Cloud は、システム層、オペレータ層、クラスター層の能力を最適化し、迅速なモデル適応と高性能なデプロイメントを確実にします。Kingsoft WPS や 360 を含む企業は、すでに Huawei Cloud 経由で DeepSeek の新モデルを統合しています。

Cambricon もまた、vLLM 推論フレームワークに基づき、DeepSeek V4-Flash と V4-Pro に対する Day 0 互換性を発表しました。適応コードは GitHub コミュニティにオープンソース化されています。Cambricon は以前、昨年 DeepSeek V3.2 がリリースされた際にもファーストムーバーの適応を達成しており、DeepSeek シリーズモデルに対して深いソフトウェア—ハードウェアの協調パフォーマンス最適化を実施しました。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし