DeepSeek veröffentlicht V4 als Open-Source-Vorschauversion, Technikbewertung 3206 übertrifft GPT-5.4

MarketWhisper

2026-04-24 05:38:01

DeepSeek hat am 24. April offiziell die V4-Vorschau-Serienversion veröffentlicht. Die Modellgewichte wurden unter der MIT-Lizenz als Open Source bereitgestellt und sind bereits auf Hugging Face sowie ModelScope synchronisiert. Laut dem technischen Bericht zu DeepSeek V4 erzielte V4-Pro-Max (im Modus mit maximaler Inferenzstärke) im Codeforces-Benchmark 3206 Punkte und liegt damit vor GPT-5.4.

Spezifikationen der zwei MoE-Modellarchitekturen

Laut dem technischen Bericht zu DeepSeek V4 umfasst die V4-Serie zwei Misch-Experten (MoE)-Modelle:

V4-Pro: Gesamtparameter 1,6T, Aktivierung pro Token 49B, Unterstützung für 1M-Token-Kontext

V4-Flash: Gesamtparameter 284B, Aktivierung pro Token 13B, ebenfalls Unterstützung für 1M-Token-Kontext

Laut dem technischen Bericht hat V4-Pro bei 1M-Kontext in der Inferenz pro Token FLOPs nur 27% von V3.2, und der KV-Cache sinkt auf 10% von V3.2. Dies ist vor allem auf ein Architektur-Upgrade durch das Mixture-Attention-Mechanismus-Design zurückzuführen (komprimierte spärliche Attention CSA + hochgradig komprimierte Attention HCA). Das Vortrainingsdatenvolumen übersteigt 32T Tokens; der Trainingsoptimierer wurde auf Muon aktualisiert.

Nachtrainings-Methodik: Online-Strategie-Distillation ersetzt Mixed Reinforcement Learning

Laut dem technischen Bericht zu DeepSeek V4 liegt das zentrale Update des V4-Post-Trainings darin, dass die Online-Strategie-Distillation (On-Policy Distillation, OPD) die Mixed-RL-Phase (gemischtes RL) von V3.2 vollständig ersetzt. Der neue Prozess gliedert sich in zwei Schritte: Zuerst werden Domänenexperten (SFT + GRPO-Reinforcement Learning) jeweils für Bereiche wie Mathematik, Programmcode, Agent und Instruction-Following separat trainiert. Anschließend werden mit Multi-Teacher OPD die Fähigkeiten von mehr als zehn Experten in ein einheitliches Modell destilliert; durch logit-Alignment werden Kompetenzkonflikte vermieden, wie sie bei traditionellen Methoden häufig auftreten.

Der Bericht führt außerdem ein generatives Belohnungsmodell (Generative Reward Model, GRM) ein: Für Aufgaben, die sich nur schwer per Regeln verifizieren lassen, wird es mit einer kleinen Menge diversifizierter menschlicher annotierter Datensätze trainiert, damit das Modell sowohl Generierungs- als auch Bewertungsfunktionen übernimmt.

Benchmark-Ergebnisse: Beim Codieren führend, bei Wissens-Inferenz bleibt eine Lücke

Laut dem technischen Bericht zu DeepSeek V4 sind die Vergleichsergebnisse von V4-Pro-Max mit Opus 4.6 Max, GPT-5.4 xHigh und Gemini 3.1 Pro High (ohne die kürzlich veröffentlichten GPT-5.5 und Opus 4.7):

Codeforces：3206（GPT-5.4：3168 / Gemini 3.1 Pro：3052）→ höchstes Ergebnis im gesamten Feld

LiveCodeBench：93.5 → höchstes Ergebnis im gesamten Feld

SWE Verified：80.6, liegt 0.2 Prozentpunkte hinter Opus 4.6 mit 80.8

GPQA Diamond：90.1, liegt 94.3 von Gemini 3.1 Pro hinterher

SimpleQA-Verified：57.9, liegt 75.6 von Gemini 3.1 Pro hinterher

HLE：37.7, liegt 44.4 von Gemini 3.1 Pro hinterher

Der technische Bericht weist zugleich darauf hin, dass die obigen Vergleiche die zuletzt veröffentlichten GPT-5.5 und Opus 4.7 nicht einschließen. Die Differenz zwischen V4 und dem neuesten Closed-Source-Modell der aktuellen Generation muss durch eine Drittanbieterbewertung verifiziert werden.

Häufige Fragen

Welche Open-Source-Lizenzbedingungen gelten für die DeepSeek V4-Vorschauversion, und wo kann man sie erhalten?

Laut der offiziellen Mitteilung von DeepSeek vom 24. April wird die V4-Serie unter der MIT-Lizenz als Open Source veröffentlicht. Die Modellgewichte sind auf Hugging Face und ModelScope bereitgestellt und gelten für kommerzielle sowie wissenschaftliche Zwecke.

Wie unterscheiden sich die Parametergrößen von DeepSeek V4-Pro und V4-Flash?

Laut dem technischen Bericht zu DeepSeek V4 hat V4-Pro eine Gesamtparameterzahl von 1,6T, Aktivierung pro Token 49B; V4-Flash hat Gesamtparameter von 284B, Aktivierung pro Token 13B. Beide Modelle unterstützen einen 1M-Token-Kontext.

Wie lauten die Ergebnisse des Benchmark-Vergleichs zwischen DeepSeek V4-Pro-Max und GPT-5.4 sowie Gemini 3.1 Pro?

Laut dem technischen Bericht zu DeepSeek V4 übertrifft V4-Pro-Max GPT-5.4 und Gemini 3.1 Pro in den Benchmarks Codeforces (3206 Punkte) und LiveCodeBench (93.5), bleibt jedoch bei wissensintensiven Benchmarks (GPQA Diamond、SimpleQA-Verified、HLE) hinter Gemini 3.1 Pro zurück; das Vergleichsset schließt GPT-5.5 und Opus 4.7 nicht ein.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.