DeepSeekの学習データが33Tまで倍増、リリースを遅らせた不安定性が発生

Gate Newsメッセージ、4月24日 — DeepSeekのV4技術レポートによると、V4-FlashとV4-Proはそれぞれ32Tおよび33Tトークンで事前学習されており、V3で使用された約15Tトークンの約2倍です。レポートでは、学習中に「重大な不安定性の課題」に遭遇したことを認めており、損失スパイクがMixture-of-Experts (MoE)層の異常によって繰り返し発生していました。ルーティング機構そのものがこれらの異常を悪化させており、単純なロールバックでは問題を解決できないとしています。

DeepSeekは実際の学習に適用された2つの解決策をすでに導入しています。予測的ルーティングは、ルーティング・インデックスの計算をバックボーン・ネットワークの更新から切り離し、損失スパイクが検出されたときにのみ自動的にトリガーするもので、(約20%のオーバーヘッド)が追加されるとしています。SwiGLUクランピングは、活性値を固定範囲にクランプすることで異常を直接抑制します。レポートでは、どちらのアプローチも有効だと述べつつ、「基礎となる原理は十分に理解されていないままだ」と認めています。

以前にMeta AIやOpenAIで働いていたGoogle DeepMindの研究者であるSusan Zhangは、学習データを倍にしたことで引き起こされた不安定性が「遅れを説明する」とコメントしました。彼女は、その2つの解決策を「応急処置」と表現しながらも、DeepSeekの技術的な透明性を認めています。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし