DeepSeek veröffentlichte am 24. April 2026 Vorschauversionen von DeepSeek-V4-Pro und DeepSeek-V4-Flash, beides Open-Weight-Modelle mit einem Kontextfenster von einer Million Tokens und Preisen, die deutlich unter vergleichbaren westlichen Alternativen liegen. Das V4-Pro-Modell kostet $1.74 pro Million Input-Tokens und $3.48 pro Million Output-Tokens – ungefähr 1/20 des Preises von Claude Opus 4.7 und 98% weniger als GPT-5.5 Pro, laut den offiziellen Spezifikationen des Unternehmens.
DeepSeek-V4-Pro verfügt über 1,6 Billionen (1.6 trillion) Gesamtparameter und ist damit das größte Open-Source-Modell auf dem LLM-Markt bis dato. Allerdings werden bei jedem Inferenz-Durchlauf nur 49 Milliarden Parameter aktiviert, und zwar nach dem, was DeepSeek den Mixture-of-Experts-Ansatz nennt, der seit V3 verfeinert wurde. Dieses Design ermöglicht es, dass das vollständige Modell im Leerlauf bleibt, während jeweils nur die relevanten Teilbereiche für jede gegebene Anfrage aktiviert werden, wodurch die Rechenkosten gesenkt werden, während die Wissenskapazität erhalten bleibt.
DeepSeek-V4-Flash arbeitet in kleinerem Maßstab mit 284 Milliarden (284 billion) Gesamtparametern und 13 Milliarden aktiven Parametern. Laut den Benchmarks von DeepSeek „erreicht es vergleichbare Problemlösungsleistung wie die Pro-Version, wenn man ein größeres Denk-Budget bereitstellt.“
Beide Modelle unterstützen als Standardfunktion eine Million Tokens Kontext – etwa 750.000 Wörter oder ungefähr die gesamte „Lord of the Rings“-Trilogie plus zusätzlichen Text.
DeepSeek löste das dem Rechenskalierungsproblem bei der Verarbeitung von Langkontext innewohnende Problem, indem es zwei neue Attention-Typen erfand, wie in dem technischen Paper des Unternehmens beschrieben, das auf GitHub verfügbar ist.
Standardmäßige KI-Attention-Mechanismen sehen sich mit einem brutalen Skalierungsproblem konfrontiert: Jedes Mal, wenn die Kontextlänge verdoppelt wird, steigen die Berechnungskosten ungefähr um den Faktor vier. DeepSeeks Lösung setzt auf zwei komplementäre Ansätze:
Komprimierte Sparse Attention funktioniert in zwei Schritten. Zuerst komprimiert sie Gruppen von Tokens – zum Beispiel jeweils 4 Tokens – zu einem einzigen Eintrag. Dann wählt sie, statt allen komprimierten Einträgen Aufmerksamkeit zu schenken, mit einem „Lightning Indexer“ nur die relevantesten Ergebnisse für jede gegebene Anfrage aus. Das reduziert den Attention-Umfang des Modells von einer Million Tokens auf eine viel kleinere Menge wichtiger Chunks.
Stark komprimierte Attention geht noch aggressiver vor und kollabiert jeweils 128 Tokens zu einem einzigen Eintrag, ohne Sparse-Auswahl. Während dabei feingranulare Details verloren gehen, liefert es einen extrem günstigen globalen Überblick. Die beiden Attention-Typen laufen in alternierenden Layern, sodass das Modell sowohl Detail als auch Übersicht beibehält.
Das Ergebnis: V4-Pro nutzt 27% der Rechenleistung, die sein Vorgänger (V3.2) benötigte. Der KV-Cache – also der Speicher, der benötigt wird, um den Kontext nachzuverfolgen – sinkt auf 10% von V3.2. V4-Flash treibt die Effizienz weiter: 10% der Rechenleistung und 7% des Speichers im Vergleich zu V3.2.
DeepSeek veröffentlichte umfassende Benchmark-Vergleiche gegen GPT-5.4 und Gemini-3.1-Pro, einschließlich Bereichen, in denen V4-Pro hinter Wettbewerbern zurückbleibt. Bei Denkaufgaben liegt das reasoning von V4-Pro laut DeepSeeks technischem Bericht etwa drei bis sechs Monate hinter GPT-5.4 und Gemini-3.1-Pro zurück.
Wo V4-Pro führt:
Wo V4-Pro zurückbleibt:
Bei Langkontext-Aufgaben führt V4-Pro unter Open-Source-Modellen und schlägt Gemini-3.1-Pro bei CorpusQA (Simulation realer Dokumentanalyse mit einer Million Tokens), verliert aber gegen Claude Opus 4.6 bei MRCR, das die Abrufung spezifischer Informationen misst, die tief in langem Text verborgen sind.
V4-Pro kann in Claude Code, OpenCode und anderen KI-Coding-Tools laufen. Laut DeepSeeks interner Umfrage unter 85 Entwicklern, die V4-Pro als primären Coding-Agenten genutzt haben, sagten 52%, es sei bereit, ihr Standardmodell zu sein, 39% tendierten zu „ja“, und weniger als 9% sagten „nein“. DeepSeeks interne Tests zeigten, dass V4-Pro Claude Sonnet übertrifft und Claude Opus 4.5 bei agentischem Coding annähert.
Artificial Analysis platzierte V4-Pro als Erstes unter allen Open-Weight-Modellen bei GDPval-AA, einem Benchmark, der ökonomisch wertvolle Wissensarbeit über Finanz-, Rechts- und Forschungsaufgaben hinweg testet. V4-Pro-Max erzielte 1,554 Elo und lag damit vor GLM-5.1 (1,535) und MiniMax’s M2.7 (1,514). Claude Opus 4.6 erzielt 1,619 auf demselben Benchmark.
V4 führt „interleaved thinking“ ein, das die vollständige Kette des Denkens über Tool-Aufrufe hinweg beibehält. In früheren Modellen wurde der reasoning-Kontext geleert, wenn ein Agent mehrere Tool-Aufrufe tätigte – zum Beispiel Websuche, dann Code ausführen, dann erneut suchen. V4 hält die reasoning-Kontinuität über Schritte hinweg aufrecht und verhindert Kontextverluste in komplexen automatisierten Workflows.
Das V4-Release kommt inmitten bedeutender Aktivitäten im KI-Bereich. Anthropic lieferte Claude Opus 4.7 am 16. April 2026 aus. OpenAI’s GPT-5.5 wurde am 23. April 2026 gelauncht; GPT-5.5 Pro ist mit $30 pro Million Input-Tokens und $180 pro Million Output-Tokens bepreist. GPT-5.5 schlägt V4-Pro auf Terminal Bench 2.0 (82.7% gegenüber 70.0%), was komplexe Command-Line-Agent-Workflow-Interaktionen testet.
Xiaomi veröffentlichte MiMo V2.5 Pro am 22. April 2026 und bot dabei vollständige Multimodal-Fähigkeiten (image, audio, video) zu $1 input und $3 output pro Million Tokens. Tencent veröffentlichte Hy3 am selben Tag wie GPT-5.5.
Zur Preis-Perspektive: Cline CEO Saoud Rizwan merkte an, dass wenn Uber statt Claude DeepSeek verwendet hätte, sein 2026er KI-Budget – Berichten zufolge ausreichend für vier Monate Nutzung – sieben Jahre lang gereicht hätte.
Sowohl V4-Pro als auch V4-Flash sind MIT-lizenziert und auf Hugging Face verfügbar. Die Modelle sind vorerst textbasiert; DeepSeek erklärte, dass es an multimodalen Fähigkeiten arbeitet. Beide Modelle können kostenlos auf lokaler Hardware betrieben werden oder basierend auf den Anforderungen des Unternehmens angepasst werden.
DeepSeeks bestehende deepseek-chat- und deepseek-reasoner-Endpunkte routen bereits in Nicht-Denk- bzw. Denk-Modi zu V4-Flash. Die alten deepseek-chat- und deepseek-reasoner-Endpunkte werden am 24. Juli 2026 auslaufen.
DeepSeek trainierte V4 teilweise auf Huawei Ascend-Chips und umging damit US-Exportbeschränkungen. Das Unternehmen erklärte, dass, sobald später im Jahr 2026 950 neue Supernodes online gehen, der ohnehin schon niedrige Preis des Pro-Modells noch weiter sinken wird.
Für Unternehmen kann sich die Preisstruktur auf Kosten-Nutzen-Berechnungen auswirken. Ein Modell, das Open-Source-Benchmarks für $1.74 pro Million Input-Tokens anführt, macht großskalige Dokumentenverarbeitung, rechtliche Prüfungen und Code-Generierungs-Pipelines erheblich günstiger als noch vor sechs Monaten. Der Kontext von einer Million Tokens ermöglicht es, komplette Codebasen oder regulatorische Einreichungen in einer einzigen Anfrage zu verarbeiten, statt sie über mehrere Calls zu chunk-en.
Für Entwickler und Solo-Builder ist V4-Flash die primäre Überlegung. Für $0.14 Input und $0.28 Output pro Million Tokens ist es günstiger als Modelle, die vor einem Jahr als Budget-Optionen galten, während es die meisten Aufgaben abdeckt, die die Pro-Version bewältigt.