DeepSeekが梁文锋署名の新論文を発表:mHC新アーキテクチャを提案し、大規模モデルのトレーニング安定性を向上

PANewsは1月1日に、JinshiによるとDeepSeekが新しい論文を発表し、多様制約ハイパーコネクション(mHC)と呼ばれる新しいアーキテクチャを提案したと報じました。このアーキテクチャは、ハイパーコネクションネットワーク(HC)技術の識別マッピング特性の破壊による訓練の不安定性や限られたスケーラビリティの問題を解決することを目的としています。 このアーキテクチャは、HCの残留接続空間を特定のマニホールドにマッピングし、アイデンティティマッピング特性を復元しつつ、厳格なインフラ最適化を組み込んで効率性を確保することで、パフォーマンスの向上と優れたスケーラビリティを実現しています。 DeepSeekは、HCの柔軟かつ実用的な拡張として、トポロジカルアーキテクチャ設計をより深く理解し、ベースモデルの進化に有望な方向性を示すのに役立つと期待しています。 この論文は謝振達、魏一宣、曹煥琦が第一著者として共著し、梁文峰も著者リストに名を連ねています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$3.55K保有者数:1
    0.00%
  • 時価総額:$3.55K保有者数:1
    0.00%
  • 時価総額:$3.61K保有者数:2
    0.00%
  • 時価総額:$3.66K保有者数:3
    0.44%
  • 時価総額:$3.55K保有者数:1
    0.00%
  • ピン