DeepSeek publie un nouveau article signé par Liang Wenfeng : propose une nouvelle architecture mHC pour améliorer la stabilité de l'entraînement des grands modèles

PANews 1 janvier - Selon Jinshi, DeepSeek a publié un nouveau papier présentant une nouvelle architecture appelée contrainte de manifold hyperconnecté (mHC), conçue pour résoudre les problèmes d’instabilité de l’entraînement et de limitation de l’évolutivité des réseaux hyperconnectés (HC) causés par la destruction de la propriété de mapping identité. Cette architecture mappe l’espace de connexion résiduelle de HC sur un manifold spécifique pour restaurer la propriété de mapping identité, tout en combinant une optimisation rigoureuse de l’infrastructure pour garantir l’efficacité, ce qui a permis d’obtenir des améliorations de performance significatives et une évolutivité supérieure. DeepSeek prévoit que le mHC, en tant qu’extension flexible et pratique de HC, contribuera à une compréhension plus approfondie de la conception architecturale topologique et indiquera des directions prometteuses pour l’évolution des modèles de base. Ce papier est co-réalisé par Zhenda Xie (解振达), Yixuan Wei (韦毅轩), Huanqi Cao, avec également Liang Wenfeng parmi les auteurs.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)