Message de Gate News, 24 avril — Le rapport technique V4 de DeepSeek révèle que V4-Flash et V4-Pro ont été préentraînés respectivement sur 32T et 33T jetons, soit le double des quelque 15T jetons utilisés pour V3. Le rapport reconnaît avoir rencontré des "défis d’instabilité significatifs" pendant l’entraînement, avec des pics de perte survenant à répétition en raison d’anomalies dans la couche (Mixture-of-Experts )MoE( ; le mécanisme de routage lui-même exacerbe ces anomalies, et un simple rollback ne peut pas résoudre le problème.

DeepSeek a mis en œuvre deux solutions désormais appliquées à l’entraînement réel : le routage anticipatif, qui découple le calcul de l’index de routage des mises à jour du réseau backbone et déclenche automatiquement uniquement lorsque des pics de perte sont détectés )ajoutant environ 20 % de surcharge, et le bridage SwiGLU, qui supprime directement les anomalies en limitant les valeurs d’activation à une plage fixe. Le rapport indique que les deux approches sont efficaces, mais admet que "les principes sous-jacents restent insuffisamment compris."

Susan Zhang, une chercheuse de Google DeepMind qui a auparavant travaillé chez Meta AI et OpenAI, a commenté que l’instabilité déclenchée par le doublement des données d’entraînement "explique le retard." Elle a décrit les deux solutions comme des "pansements" tout en reconnaissant la transparence technique de DeepSeek.

Afficher la source

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

04-24 03:04

DeepSeek publie la série de modèles open-source V4 avec 1,6T de paramètres et une licence MIT

04-24 01:46

OpenAI lance GPT-5.5, conçu pour les tâches d’agent et les flux de travail complexes

04-23 20:42

Brèche de sécurité chez Vercel : s’étend à des centaines d’utilisateurs ; les développeurs IA à plus haut risque

04-23 13:14

Cluster Protocol lève $5M de financement, DAO5 mène le tour

04-23 09:45

DeepSeek publie en open source TileKernels, une bibliothèque de noyaux GPU pour l’entraînement et l’inférence de grands modèles

Analyse approfondie

JPMorgan : le bug de KelpDAO efface 20 milliards de dollars de TVL DeFi, l’attrait pour les institutions en pâtit

Market Whisper04-24 02:50

Peur extrême à 23 — Mais les pièces d’IA impriment du vert : 4 choix crypto que l’argent intelligent accumule discrètement

Crypto News Land04-24 01:31

JPMorgan : Les hacks DeFi se multiplient et le mécanisme d’intérêt pour les compressions de TVL suscite l’enthousiasme, les capitaux se déplacent vers l’USDT

ChainNewsAbmedia04-23 15:24

Commentaire

0/400

Aucun commentaire