Yifan Zhang legt vollständige DeepSeek-V4-Spezifikationen offen: 1,6B Parameter, 384 Experten mit 6 Aktivierungen

Gate News Nachricht, 22. April — Der Princeton-Promotionsstudent Yifan Zhang hat auf X vollständige technische Spezifikationen für DeepSeek V4 offengelegt, nachdem es am 19. April eine Vorschau gegeben hatte. V4 verfügt über insgesamt 1,6 Billionen Parameter und eine leichte Variante, V4-Lite, mit 285 Milliarden Parametern.

Das Modell verwendet den DSA2-Attention-Mechanismus, der die vorherige DSA (DeepSeek Sparse Attention) von V3.2 und die NSA (Native Sparse Attention) kombiniert, jeweils mit 512-dimensionalen Head-Embeddings, gepaart mit Sparse Multi-Query Attention (MQA) und Sliding Window Attention (SWA). Die MoE (Mixture of Experts)-Schicht enthält 384 Experten, von denen 6 pro Vorwärtsdurchlauf aktiviert werden, unter Nutzung von Fused MoE Mega-Kernel. Residualverbindungen verwenden die Hyper-Connections-Architektur.

Die Trainingsdetails wurden erstmals offengelegt und umfassen den Einsatz des Muon-Optimierers (applying Newton-Schulz orthogonalization to momentum updates), ein 32K Token Pre-Training-Kontextfenster und GRPO (Group Relative Policy Optimization) mit KL-Divergenz-Korrektur während des Reinforcement Learning. Das finale Kontextfenster reicht bis auf 1 Million Tokens. Das Modell ist textbasiert.

Zhang ist nicht bei DeepSeek angestellt, und das Unternehmen hat sich offiziell nicht zu den offengelegten Informationen geäußert.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare