Les données d’entraînement de DeepSeek V4 doublées à 33T, provoquant une instabilité qui a retardé la sortie

Message de Gate News, 24 avril — Le rapport technique V4 de DeepSeek révèle que V4-Flash et V4-Pro ont été préentraînés respectivement sur 32T et 33T jetons, soit le double des quelque 15T jetons utilisés pour V3. Le rapport reconnaît avoir rencontré des "défis d’instabilité significatifs" pendant l’entraînement, avec des pics de perte survenant à répétition en raison d’anomalies dans la couche (Mixture-of-Experts )MoE( ; le mécanisme de routage lui-même exacerbe ces anomalies, et un simple rollback ne peut pas résoudre le problème.

DeepSeek a mis en œuvre deux solutions désormais appliquées à l’entraînement réel : le routage anticipatif, qui découple le calcul de l’index de routage des mises à jour du réseau backbone et déclenche automatiquement uniquement lorsque des pics de perte sont détectés )ajoutant environ 20 % de surcharge, et le bridage SwiGLU, qui supprime directement les anomalies en limitant les valeurs d’activation à une plage fixe. Le rapport indique que les deux approches sont efficaces, mais admet que "les principes sous-jacents restent insuffisamment compris."

Susan Zhang, une chercheuse de Google DeepMind qui a auparavant travaillé chez Meta AI et OpenAI, a commenté que l’instabilité déclenchée par le doublement des données d’entraînement "explique le retard." Elle a décrit les deux solutions comme des "pansements" tout en reconnaissant la transparence technique de DeepSeek.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire