Yifan Zhang divulgue les spécifications techniques complètes de DeepSeek V4 : 1,6T paramètres, 384 experts avec 6 activations

Message de Gate News, 22 avril — Le doctorant de Princeton Yifan Zhang a divulgué sur X les spécifications techniques complètes de DeepSeek V4, après un aperçu le 19 avril. V4 affiche 1,6 trillion de paramètres au total et une variante légère, V4-Lite, avec 285 milliards de paramètres.

Le modèle emploie le mécanisme d’attention DSA2, qui combine l’ancienne attention DSA (DeepSeek Sparse Attention) de DeepSeek issue de la V3.2 et la NSA (Native Sparse Attention) avec des embeddings de tête de dimension 512, associée à l’attention à requêtes multiples clairsemées (MQA) et à l’attention à fenêtre glissante (SWA). La couche MoE (Mixture of Experts) contient 384 experts avec 6 experts activés par passe avant, en utilisant le méga-kernel MoE fusionné. Les connexions résiduelles utilisent l’architecture Hyper-Connections.

Les détails d’entraînement révélés pour la première fois incluent l’utilisation de l’optimiseur Muon (applying Newton-Schulz orthogonalization to momentum updates), une fenêtre de contexte de préentraînement de 32K tokens, et GRPO (Group Relative Policy Optimization) avec correction par divergence KL pendant l’apprentissage par renforcement. La fenêtre de contexte finale s’étend jusqu’à 1 million de tokens. Le modèle est text-only.

Zhang n’est pas employé par DeepSeek, et l’entreprise n’a fait aucun commentaire officiel sur les informations divulguées.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire