
DeepSeek hat am 24. April offiziell die V4-Vorschau-Serienversion veröffentlicht. Die Modellgewichte wurden unter der MIT-Lizenz als Open Source bereitgestellt und sind bereits auf Hugging Face sowie ModelScope synchronisiert. Laut dem technischen Bericht zu DeepSeek V4 erzielte V4-Pro-Max (im Modus mit maximaler Inferenzstärke) im Codeforces-Benchmark 3206 Punkte und liegt damit vor GPT-5.4.
Spezifikationen der zwei MoE-Modellarchitekturen
Laut dem technischen Bericht zu DeepSeek V4 umfasst die V4-Serie zwei Misch-Experten (MoE)-Modelle:
V4-Pro: Gesamtparameter 1,6T, Aktivierung pro Token 49B, Unterstützung für 1M-Token-Kontext
V4-Flash: Gesamtparameter 284B, Aktivierung pro Token 13B, ebenfalls Unterstützung für 1M-Token-Kontext
Laut dem technischen Bericht hat V4-Pro bei 1M-Kontext in der Inferenz pro Token FLOPs nur 27% von V3.2, und der KV-Cache sinkt auf 10% von V3.2. Dies ist vor allem auf ein Architektur-Upgrade durch das Mixture-Attention-Mechanismus-Design zurückzuführen (komprimierte spärliche Attention CSA + hochgradig komprimierte Attention HCA). Das Vortrainingsdatenvolumen übersteigt 32T Tokens; der Trainingsoptimierer wurde auf Muon aktualisiert.
Nachtrainings-Methodik: Online-Strategie-Distillation ersetzt Mixed Reinforcement Learning
Laut dem technischen Bericht zu DeepSeek V4 liegt das zentrale Update des V4-Post-Trainings darin, dass die Online-Strategie-Distillation (On-Policy Distillation, OPD) die Mixed-RL-Phase (gemischtes RL) von V3.2 vollständig ersetzt. Der neue Prozess gliedert sich in zwei Schritte: Zuerst werden Domänenexperten (SFT + GRPO-Reinforcement Learning) jeweils für Bereiche wie Mathematik, Programmcode, Agent und Instruction-Following separat trainiert. Anschließend werden mit Multi-Teacher OPD die Fähigkeiten von mehr als zehn Experten in ein einheitliches Modell destilliert; durch logit-Alignment werden Kompetenzkonflikte vermieden, wie sie bei traditionellen Methoden häufig auftreten.
Der Bericht führt außerdem ein generatives Belohnungsmodell (Generative Reward Model, GRM) ein: Für Aufgaben, die sich nur schwer per Regeln verifizieren lassen, wird es mit einer kleinen Menge diversifizierter menschlicher annotierter Datensätze trainiert, damit das Modell sowohl Generierungs- als auch Bewertungsfunktionen übernimmt.
Benchmark-Ergebnisse: Beim Codieren führend, bei Wissens-Inferenz bleibt eine Lücke
Laut dem technischen Bericht zu DeepSeek V4 sind die Vergleichsergebnisse von V4-Pro-Max mit Opus 4.6 Max, GPT-5.4 xHigh und Gemini 3.1 Pro High (ohne die kürzlich veröffentlichten GPT-5.5 und Opus 4.7):
Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ höchstes Ergebnis im gesamten Feld
LiveCodeBench:93.5 → höchstes Ergebnis im gesamten Feld
SWE Verified:80.6, liegt 0.2 Prozentpunkte hinter Opus 4.6 mit 80.8
GPQA Diamond:90.1, liegt 94.3 von Gemini 3.1 Pro hinterher
SimpleQA-Verified:57.9, liegt 75.6 von Gemini 3.1 Pro hinterher
HLE:37.7, liegt 44.4 von Gemini 3.1 Pro hinterher
Der technische Bericht weist zugleich darauf hin, dass die obigen Vergleiche die zuletzt veröffentlichten GPT-5.5 und Opus 4.7 nicht einschließen. Die Differenz zwischen V4 und dem neuesten Closed-Source-Modell der aktuellen Generation muss durch eine Drittanbieterbewertung verifiziert werden.
Häufige Fragen
Welche Open-Source-Lizenzbedingungen gelten für die DeepSeek V4-Vorschauversion, und wo kann man sie erhalten?
Laut der offiziellen Mitteilung von DeepSeek vom 24. April wird die V4-Serie unter der MIT-Lizenz als Open Source veröffentlicht. Die Modellgewichte sind auf Hugging Face und ModelScope bereitgestellt und gelten für kommerzielle sowie wissenschaftliche Zwecke.
Wie unterscheiden sich die Parametergrößen von DeepSeek V4-Pro und V4-Flash?
Laut dem technischen Bericht zu DeepSeek V4 hat V4-Pro eine Gesamtparameterzahl von 1,6T, Aktivierung pro Token 49B; V4-Flash hat Gesamtparameter von 284B, Aktivierung pro Token 13B. Beide Modelle unterstützen einen 1M-Token-Kontext.
Wie lauten die Ergebnisse des Benchmark-Vergleichs zwischen DeepSeek V4-Pro-Max und GPT-5.4 sowie Gemini 3.1 Pro?
Laut dem technischen Bericht zu DeepSeek V4 übertrifft V4-Pro-Max GPT-5.4 und Gemini 3.1 Pro in den Benchmarks Codeforces (3206 Punkte) und LiveCodeBench (93.5), bleibt jedoch bei wissensintensiven Benchmarks (GPQA Diamond、SimpleQA-Verified、HLE) hinter Gemini 3.1 Pro zurück; das Vergleichsset schließt GPT-5.5 und Opus 4.7 nicht ein.