Message de Gate News, 24 avril — Le rapport technique V4 de DeepSeek révèle que V4-Flash et V4-Pro ont été préentraînés respectivement sur 32T et 33T jetons, soit le double des quelque 15T jetons utilisés pour V3. Le rapport reconnaît avoir rencontré des "défis d’instabilité significatifs" pendant l’entraînement, avec des pics de perte survenant à répétition en raison d’anomalies dans la couche (Mixture-of-Experts )MoE( ; le mécanisme de routage lui-même exacerbe ces anomalies, et un simple rollback ne peut pas résoudre le problème.
DeepSeek a mis en œuvre deux solutions désormais appliquées à l’entraînement réel : le routage anticipatif, qui découple le calcul de l’index de routage des mises à jour du réseau backbone et déclenche automatiquement uniquement lorsque des pics de perte sont détectés )ajoutant environ 20 % de surcharge, et le bridage SwiGLU, qui supprime directement les anomalies en limitant les valeurs d’activation à une plage fixe. Le rapport indique que les deux approches sont efficaces, mais admet que "les principes sous-jacents restent insuffisamment compris."
Susan Zhang, une chercheuse de Google DeepMind qui a auparavant travaillé chez Meta AI et OpenAI, a commenté que l’instabilité déclenchée par le doublement des données d’entraînement "explique le retard." Elle a décrit les deux solutions comme des "pansements" tout en reconnaissant la transparence technique de DeepSeek.