Gate News Nachricht, 22. April — Der Princeton-Promotionsstudent Yifan Zhang hat auf X vollständige technische Spezifikationen für DeepSeek V4 offengelegt, nachdem es am 19. April eine Vorschau gegeben hatte. V4 verfügt über insgesamt 1,6 Billionen Parameter und eine leichte Variante, V4-Lite, mit 285 Milliarden Parametern.
Das Modell verwendet den DSA2-Attention-Mechanismus, der die vorherige DSA (DeepSeek Sparse Attention) von V3.2 und die NSA (Native Sparse Attention) kombiniert, jeweils mit 512-dimensionalen Head-Embeddings, gepaart mit Sparse Multi-Query Attention (MQA) und Sliding Window Attention (SWA). Die MoE (Mixture of Experts)-Schicht enthält 384 Experten, von denen 6 pro Vorwärtsdurchlauf aktiviert werden, unter Nutzung von Fused MoE Mega-Kernel. Residualverbindungen verwenden die Hyper-Connections-Architektur.
Die Trainingsdetails wurden erstmals offengelegt und umfassen den Einsatz des Muon-Optimierers (applying Newton-Schulz orthogonalization to momentum updates), ein 32K Token Pre-Training-Kontextfenster und GRPO (Group Relative Policy Optimization) mit KL-Divergenz-Korrektur während des Reinforcement Learning. Das finale Kontextfenster reicht bis auf 1 Million Tokens. Das Modell ist textbasiert.
Zhang ist nicht bei DeepSeek angestellt, und das Unternehmen hat sich offiziell nicht zu den offengelegten Informationen geäußert.