DeepSeek V4-Flash steigt auf Ollama Cloud, US-Server: Claude Code, OpenClaw mit Ein-Klick-Verbindung

ChainNewsAbmedia

2026-04-24 10:45:01

Das lokale KI-Modell-Ausführungstool Ollama hat am 24.4. auf der X-Plattform öffentlich bekannt gegeben, dass es das von der chinesischen KI-Startup DeepSeek am Vortag veröffentlichte V4-Flash-Modell in den Ollama-Cloud-Dienst aufnimmt. Die Inferenz-Hosts befinden sich in den USA und es werden drei Sätze mit One-Click-Befehlen bereitgestellt, damit Entwickler V4-Flash direkt in gängige KI-Programm-Entwicklungs-Workflows wie Claude Code, OpenClaw und Hermes integrieren können.

deepseek-v4-flash is now available on Ollama's cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…

— ollama (@ollama) April 24, 2026

DeepSeek V4 Preview：Zwei Größen, 1M Kontext

Laut einer am 24.4. veröffentlichten Ankündigung der offiziellen DeepSeek-API-Dokumentation wird DeepSeek-V4 Preview in zwei Größen aufgeteilt und zeitgleich als Open-Source bereitgestellt:

Modell Gesamtparameter Aktive Parameter Ausrichtung DeepSeek-V4-Pro 1,6 Billionen 49 Milliarden Ziel: Closed-Source-Flaggschiff DeepSeek-V4-Flash 2.840 Milliarden 130 Milliarden Schnell, effizient, kostengünstig

Beide Modelle verwenden eine Mixture-of-Experts（MoE）-Architektur und unterstützen nativ einen 1 Million tokens langen Kontext. In der Ankündigung erklärte DeepSeek: „1M Kontext ist jetzt der Standardwert für alle offiziellen DeepSeek-Dienste.“

Architektur-Innovation：DSA-sparsame Aufmerksamkeit＋Token-wise-Komprimierung

Zu den wichtigsten Architekturverbesserungen der V4-Reihe gehören:

Token-wise Komprimierung in Kombination mit DSA（DeepSeek Sparse Attention）—— deutliche Senkung der Kosten für Inferenz-Compute und KV-Cache-Speicher bei extrem langen Kontexten

Im Vergleich zu V3.2 benötigt V4-Pro im Szenario mit 1 Million tokens Kontext pro Token für die Inferenz nur 27% der FLOPs, und der KV-Cache nur 10%

Unterstützung für das Umschalten zwischen zwei Modi: Thinking und Non-Thinking, entsprechend unterschiedlichen Anforderungen an die Tiefe des Schlussfolgerns je Aufgabe

Auf der API-Ebene ist es gleichzeitig mit den Spezifikationen von OpenAI ChatCompletions und Anthropic APIs kompatibel, wodurch die Migrationskosten für bestehende Claude/GPT-Clients gesenkt werden.

Die drei One-Click-Startbefehle von Ollama Cloud

Auf der offiziellen Modellsseite von Ollama wird mit dem Modell-Identifier deepseek-v4-flash:cloud ein Cloud-Inferenzdienst angeboten; Entwickler können V4-Flash mit den folgenden drei Befehlsgruppen direkt in bestehende KI-Programm-Entwicklungs-Workflows einbinden:

Workflow Befehl Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

Bemerkenswert ist das Signal „US-Host“. Für Unternehmen und Entwickler aus Europa/USA ist die größte Sorge bei der Nutzung chinesischer Open-Source-Modelle, dass Daten nach China zurückübertragen werden; dadurch, dass Ollama die Inferenzebene von V4-Flash in die USA verlegt, bedeutet dies, dass prompt- und Code-Inhalte die Jurisdiktion der USA nicht verlassen, wodurch Reibung in Bezug auf Compliance und Datenhoheit reduziert wird.

Warum das für die KI-Branche wichtig ist

Indem DeepSeek V4-Flash, Ollama Cloud und Claude Code, die bislang jeweils unabhängig voneinander existierten, miteinander verbunden werden, entstehen drei Bedeutungen:

Kostenpfad：Die 13 Milliarden aktiven Parameter von V4-Flash sind deutlich geringer als bei GPT-5.5（Eingabe 5 USD, Ausgabe 30 USD/1 Million tokens）und Claude Opus 4.7. Für Einsatzzwecke wie Aufgaben für kleinere bis mittlere Agenten, Batch-Zusammenfassungen, Testautomatisierung usw. ist zu erwarten, dass die Stückkosten spürbar sinken

Zwischenebene für geopolitsiches Risiko：Als in den USA registrierte Inferenz-Zwischenebene ermöglicht Ollama den Unternehmensnutzern von chinesischen nativen Modellen, die Zweifel zu umgehen, „dass Daten direkt an den DeepSeek-Beijing-Server gesendet werden“ — eine praktische Lösung, um die internationale Verbreitung von Open-Source-Modellen zu fördern

Sofortiges Umschalten für Entwickler：Nutzer von Claude Code und OpenClaw können im Terminal mit nur einer Zeile zwischen Modellen wechseln, ohne Prompt-Struktur oder IDE-Einstellungen ändern zu müssen; für Szenarien wie „Multi-Model-Regressionstests“ und „kostensensitive Batch-Aufgaben“ ist das eine echte Produktivitätsfreigabe

Kopplung an frühere DeepSeek-News

Diese Veröffentlichung von V4 und die schnelle Integration mit Ollama Cloud geschieht vor dem Hintergrund, dass DeepSeek gerade in Verhandlungen über die erste Runde externer Finanzierung ist und die Bewertung 20 Milliarden US-Dollar beträgt. V4 ist ein Schlüsselnachweis im Kapitalisierungsprozess von DeepSeek; die schnelle Verbreitung mithilfe einer Open-Source-Strategie plus internationaler Host-Partner ist der Speed-Wettlauf, bevor es ihm gelingt, die Entwickler-Ökosystem-Dominanz aufzubauen. Für OpenAI und Anthropic ist ein Open-Source-Ersatzmodell, das innerhalb von Claude Code in einer Zeile umschaltbar ist, eine neue Variable im Wettbewerb um die Führung bei Agent-Workflows.

Dieser Artikel „DeepSeek V4-Flash ist auf Ollama Cloud gelandet, US-Host：Claude Code, OpenClaw One-Click-Verkettung“ erschien zuerst in 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.