DeepSeek veröffentlichte am 24. April 2026 Vorschauversionen von DeepSeek-V4-Pro und DeepSeek-V4-Flash, beides Open-Weight-Modelle mit einem Kontextfenster von einer Million Tokens und Preisen, die deutlich unter vergleichbaren westlichen Alternativen liegen. Das V4-Pro-Modell kostet $1.74 pro Million Input-Tokens und $3.48 pro Million Output-Tokens – ungefähr 1/20 des Preises von Claude Opus 4.7 und 98% weniger als GPT-5.5 Pro, laut den offiziellen Spezifikationen des Unternehmens.

Modellarchitektur und Skalierung

DeepSeek-V4-Pro verfügt über 1,6 Billionen (1.6 trillion) Gesamtparameter und ist damit das größte Open-Source-Modell auf dem LLM-Markt bis dato. Allerdings werden bei jedem Inferenz-Durchlauf nur 49 Milliarden Parameter aktiviert, und zwar nach dem, was DeepSeek den Mixture-of-Experts-Ansatz nennt, der seit V3 verfeinert wurde. Dieses Design ermöglicht es, dass das vollständige Modell im Leerlauf bleibt, während jeweils nur die relevanten Teilbereiche für jede gegebene Anfrage aktiviert werden, wodurch die Rechenkosten gesenkt werden, während die Wissenskapazität erhalten bleibt.

DeepSeek-V4-Flash arbeitet in kleinerem Maßstab mit 284 Milliarden (284 billion) Gesamtparametern und 13 Milliarden aktiven Parametern. Laut den Benchmarks von DeepSeek „erreicht es vergleichbare Problemlösungsleistung wie die Pro-Version, wenn man ein größeres Denk-Budget bereitstellt.“

Beide Modelle unterstützen als Standardfunktion eine Million Tokens Kontext – etwa 750.000 Wörter oder ungefähr die gesamte „Lord of the Rings“-Trilogie plus zusätzlichen Text.

Technische Innovation: Attention-Mechanismen im großen Maßstab

DeepSeek löste das dem Rechenskalierungsproblem bei der Verarbeitung von Langkontext innewohnende Problem, indem es zwei neue Attention-Typen erfand, wie in dem technischen Paper des Unternehmens beschrieben, das auf GitHub verfügbar ist.

Standardmäßige KI-Attention-Mechanismen sehen sich mit einem brutalen Skalierungsproblem konfrontiert: Jedes Mal, wenn die Kontextlänge verdoppelt wird, steigen die Berechnungskosten ungefähr um den Faktor vier. DeepSeeks Lösung setzt auf zwei komplementäre Ansätze:

Komprimierte Sparse Attention funktioniert in zwei Schritten. Zuerst komprimiert sie Gruppen von Tokens – zum Beispiel jeweils 4 Tokens – zu einem einzigen Eintrag. Dann wählt sie, statt allen komprimierten Einträgen Aufmerksamkeit zu schenken, mit einem „Lightning Indexer“ nur die relevantesten Ergebnisse für jede gegebene Anfrage aus. Das reduziert den Attention-Umfang des Modells von einer Million Tokens auf eine viel kleinere Menge wichtiger Chunks.

Stark komprimierte Attention geht noch aggressiver vor und kollabiert jeweils 128 Tokens zu einem einzigen Eintrag, ohne Sparse-Auswahl. Während dabei feingranulare Details verloren gehen, liefert es einen extrem günstigen globalen Überblick. Die beiden Attention-Typen laufen in alternierenden Layern, sodass das Modell sowohl Detail als auch Übersicht beibehält.

Das Ergebnis: V4-Pro nutzt 27% der Rechenleistung, die sein Vorgänger (V3.2) benötigte. Der KV-Cache – also der Speicher, der benötigt wird, um den Kontext nachzuverfolgen – sinkt auf 10% von V3.2. V4-Flash treibt die Effizienz weiter: 10% der Rechenleistung und 7% des Speichers im Vergleich zu V3.2.

Benchmark-Leistung und Wettbewerbsposition

DeepSeek veröffentlichte umfassende Benchmark-Vergleiche gegen GPT-5.4 und Gemini-3.1-Pro, einschließlich Bereichen, in denen V4-Pro hinter Wettbewerbern zurückbleibt. Bei Denkaufgaben liegt das reasoning von V4-Pro laut DeepSeeks technischem Bericht etwa drei bis sechs Monate hinter GPT-5.4 und Gemini-3.1-Pro zurück.

Wo V4-Pro führt:

Codeforces (programmieren in kompetitiven Wettkämpfen): V4-Pro erzielte 3,206 und lag damit etwa auf Platz 23 unter den tatsächlichen menschlichen Contest-Teilnehmern
Apex Shortlist (kuratierte Mathe- und STEM-Aufgaben): 90.2% Passrate gegenüber Opus 4.6’s 85.9% und GPT-5.4’s 78.1%
SWE-Verified (GitHub-Problembehebung): 80.6%, passend zu Claude Opus 4.6

Wo V4-Pro zurückbleibt:

MMLU-Pro (Multitasking): Gemini-3.1-Pro bei 91.0% gegenüber V4-Pro bei 87.5%
GPQA Diamond (Expertenwissen): Gemini bei 94.3 gegenüber V4-Pro bei 90.1
Humanity’s Last Exam (Abschlussniveau): Gemini-3.1-Pro bei 44.4% gegenüber V4-Pro bei 37.7%

Bei Langkontext-Aufgaben führt V4-Pro unter Open-Source-Modellen und schlägt Gemini-3.1-Pro bei CorpusQA (Simulation realer Dokumentanalyse mit einer Million Tokens), verliert aber gegen Claude Opus 4.6 bei MRCR, das die Abrufung spezifischer Informationen misst, die tief in langem Text verborgen sind.

Agentische und Coding-Fähigkeiten

V4-Pro kann in Claude Code, OpenCode und anderen KI-Coding-Tools laufen. Laut DeepSeeks interner Umfrage unter 85 Entwicklern, die V4-Pro als primären Coding-Agenten genutzt haben, sagten 52%, es sei bereit, ihr Standardmodell zu sein, 39% tendierten zu „ja“, und weniger als 9% sagten „nein“. DeepSeeks interne Tests zeigten, dass V4-Pro Claude Sonnet übertrifft und Claude Opus 4.5 bei agentischem Coding annähert.

Artificial Analysis platzierte V4-Pro als Erstes unter allen Open-Weight-Modellen bei GDPval-AA, einem Benchmark, der ökonomisch wertvolle Wissensarbeit über Finanz-, Rechts- und Forschungsaufgaben hinweg testet. V4-Pro-Max erzielte 1,554 Elo und lag damit vor GLM-5.1 (1,535) und MiniMax’s M2.7 (1,514). Claude Opus 4.6 erzielt 1,619 auf demselben Benchmark.

V4 führt „interleaved thinking“ ein, das die vollständige Kette des Denkens über Tool-Aufrufe hinweg beibehält. In früheren Modellen wurde der reasoning-Kontext geleert, wenn ein Agent mehrere Tool-Aufrufe tätigte – zum Beispiel Websuche, dann Code ausführen, dann erneut suchen. V4 hält die reasoning-Kontinuität über Schritte hinweg aufrecht und verhindert Kontextverluste in komplexen automatisierten Workflows.

Wettbewerbslandschaft und Preis-Kontext

Das V4-Release kommt inmitten bedeutender Aktivitäten im KI-Bereich. Anthropic lieferte Claude Opus 4.7 am 16. April 2026 aus. OpenAI’s GPT-5.5 wurde am 23. April 2026 gelauncht; GPT-5.5 Pro ist mit $30 pro Million Input-Tokens und $180 pro Million Output-Tokens bepreist. GPT-5.5 schlägt V4-Pro auf Terminal Bench 2.0 (82.7% gegenüber 70.0%), was komplexe Command-Line-Agent-Workflow-Interaktionen testet.

Xiaomi veröffentlichte MiMo V2.5 Pro am 22. April 2026 und bot dabei vollständige Multimodal-Fähigkeiten (image, audio, video) zu $1 input und $3 output pro Million Tokens. Tencent veröffentlichte Hy3 am selben Tag wie GPT-5.5.

Zur Preis-Perspektive: Cline CEO Saoud Rizwan merkte an, dass wenn Uber statt Claude DeepSeek verwendet hätte, sein 2026er KI-Budget – Berichten zufolge ausreichend für vier Monate Nutzung – sieben Jahre lang gereicht hätte.

Bereitstellung und Verfügbarkeit

Sowohl V4-Pro als auch V4-Flash sind MIT-lizenziert und auf Hugging Face verfügbar. Die Modelle sind vorerst textbasiert; DeepSeek erklärte, dass es an multimodalen Fähigkeiten arbeitet. Beide Modelle können kostenlos auf lokaler Hardware betrieben werden oder basierend auf den Anforderungen des Unternehmens angepasst werden.

DeepSeeks bestehende deepseek-chat- und deepseek-reasoner-Endpunkte routen bereits in Nicht-Denk- bzw. Denk-Modi zu V4-Flash. Die alten deepseek-chat- und deepseek-reasoner-Endpunkte werden am 24. Juli 2026 auslaufen.

DeepSeek trainierte V4 teilweise auf Huawei Ascend-Chips und umging damit US-Exportbeschränkungen. Das Unternehmen erklärte, dass, sobald später im Jahr 2026 950 neue Supernodes online gehen, der ohnehin schon niedrige Preis des Pro-Modells noch weiter sinken wird.

Praktische Implikationen

Für Unternehmen kann sich die Preisstruktur auf Kosten-Nutzen-Berechnungen auswirken. Ein Modell, das Open-Source-Benchmarks für $1.74 pro Million Input-Tokens anführt, macht großskalige Dokumentenverarbeitung, rechtliche Prüfungen und Code-Generierungs-Pipelines erheblich günstiger als noch vor sechs Monaten. Der Kontext von einer Million Tokens ermöglicht es, komplette Codebasen oder regulatorische Einreichungen in einer einzigen Anfrage zu verarbeiten, statt sie über mehrere Calls zu chunk-en.

Für Entwickler und Solo-Builder ist V4-Flash die primäre Überlegung. Für $0.14 Input und $0.28 Output pro Million Tokens ist es günstiger als Modelle, die vor einem Jahr als Budget-Optionen galten, während es die meisten Aufgaben abdeckt, die die Pro-Version bewältigt.

View Source

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

AprDaydream

· 11Std her

Ich hoffe, die offiziellen Stellen stellen ein überprüfbares Aktionsprotokoll/einen Replay-Mechanismus bereit, sonst ist es bei Problemen sehr schwierig, Verantwortlichkeiten nachzuverfolgen, insbesondere bei automatisierten Asset-Accounts.

Original anzeigenAntworten0

PaperHandsPro

· 11Std her

Das „Verstehen der Absicht“ in der realen Anwendung ist das eigentliche Problem. Ich hoffe, es tritt nicht mehr die peinliche Situation auf, dass es statt deiner Flugticketbuchung deine Lebenslaufänderung vornimmt.

Original anzeigenAntworten0

Half-SectionedSucculent

· 11Std her

Ich freue mich ein bisschen, habe aber auch Angst: Mit einem Mausklick kann man viele Dinge erledigen, die nur durch „menschliches Klicken“ möglich sind, daher müssen Risikokontrolle und Anti-Betrug-Mechanismen verbessert werden.

Original anzeigenAntworten0

ACalmnessWithAHintOfPomelo

· 12Std her

Diese Entwicklung wird auch Auswirkungen auf Web3 haben, wenn automatisierte On-Chain-Operationen, Signaturprozesse und Wallet-Interaktionen nahtlos durchgeführt werden können, wird sich die Produktform verändern.

Original anzeigenAntworten0

StarsInTheGlassDome

· 12Std her

API und Preise erstmal nicht eilig, sondern schauen, ob es in komplexen Desktop-Umgebungen gegen Pop-ups, Multi-Fenster und Netzschwankungen resistent ist.

Original anzeigenAntworten0

GateUser-b665e41c

· 12Std her

Das Gefühl, sich von „kann sprechen und schreiben“ zu „kann ausführen und liefern“ zu entwickeln, besteht darin, ihm eine bessere Erinnerung und Aufgabenverwaltung zu geben.

Original anzeigenAntworten0

LintCollector

· 12Std her

Wenn es wirklich möglich ist, plattformübergreifend zu verknüpfen: Browser-Recherche → Excel-Bearbeitung → PPT-Erstellung → E-Mail-Versand, dann ist das der vollständige Arbeitsprozess im geschlossenen Kreislauf.

Original anzeigenAntworten0

DegenWithNotebook

· 12Std her

Endlich wird die native Desktop-Bedienung eingeführt? Jetzt wird man wirklich zum „Digital-Praktikanten“.

Original anzeigenAntworten0