DeepSeek und Xiaomi senken die Preise für KI-Modelle um bis zu 99%, während US-Labore die Kosten erhöhen

OliverGrant

2026-05-27 19:40:28

DeepSeek und Xiaomi senken die API-Preise, während US-Labs die Gebühren erhöhen

DeepSeek machte seinen 75%-Rabatt auf DeepSeek V4-Pro am 22. Mai 2026 dauerhaft und legte damit den Ausgabe-Preis auf 0,87 US-Dollar je Million Tokens fest. Xiaomi zog am 26. Mai nach und senkte die MiMo-V2.5-API-Preise um bis zu 99% für gecachte Inputs. Das Pro-Modell liegt jetzt bei 0,0036 US-Dollar je Million Tokens für gecachte Eingaben. Die Preissenkungen gehen auf technische Optimierungen in Inferenz-Frameworks und der KV-Cache-Architektur zurück. Diese Kürzungen kamen, als OpenAI die GPT-5.5-Ausgabe-Preise verdoppelte: auf 30 US-Dollar je Million Tokens zum Launch Ende April. Auch Anthropic lieferte Claude Opus 4.7 mit einem neuen Tokenizer aus, der für identischen Eingangstext bis zu 35% mehr Tokens erzeugt und damit die tatsächlichen Kosten potenziell erhöht, obwohl sich die Rate Cards nicht ändern.

Dauerhafte Preisänderungen angekündigt

DeepSeek V4-Pro läuft jetzt mit 0,435 US-Dollar für den Input und 0,87 US-Dollar für den Output pro Million Tokens. Der 75%-Rabatt, zuvor mit Ablaufdatum versehen, wurde diese Woche früher dauerhaft. Xiaomi's MiMo-V2.5-Pro entspricht nach den Kürzungen vom 26. Mai denselben 0,435/0,87 US-Dollar je Million Tokens. Cache-Hits für MiMo-V2.5 liegen nun bei 0,0036 US-Dollar je Million Tokens. Das Billing-Upgrade von Xiaomi verschafft Nutzern 5 bis 8-mal mehr Tokens zum gleichen Preis. Der Max-Plan zu 100 US-Dollar bietet nun 82 Milliarden Tokens, gegenüber 1,6 Milliarden.

Technische Umsetzung hinter den Preissenkungen

Fuli Luo, Leiter des MiMo-Teams von Xiaomi und ehemaliger Core-DeepSeek-Entwickler, der DeepSeek-V2 mitaufgebaut hat, veröffentlichte am 27. Mai eine technische Erklärung auf X. Das Inferenz-Framework unterstützt jetzt eine hierarchische KV-Cache-Optimierung für SWA. Produktionstests des Inferenz-Engines zeigen, dass diese Optimierung die Kapazität gecachter Tokens um etwa das Fünffache erhöht. Das System senkt Speicher- und Verarbeitungskosten um rund 80%. „Bei Betrieb zu diesen neu reduzierten API-Preisen läuft unsere Produktion-Inferenz-Engine praktisch mit voller Kapazität, und wir können uns trotzdem im Wesentlichen die Waage halten“, schrieb Luo.

DeepSeek V4 nutzt zwei ineinander verschachtelte Attention-Typen: einen, der alle vier Tokens für selective attention komprimiert, und einen, der alle 128 Tokens für globalen Kontext kollabiert. Bei einer Million Tokens Kontext ist der KV-Cache von V4-Pro nur 10% so groß wie der seines Vorgängers. Einzelfolgende Token-Inferenz liegt bei 27% der vorherigen Rechenkosten.

Performance-Benchmarks und vergleichende Preisgestaltung

DeepSeek V4-Pro erzielte 80,6% auf SWE-Verified. Claude Opus 4.6 erreichte 80,8% auf demselben Benchmark, der die tatsächliche Auflösung von GitHub-Issues misst. Die Preisdifferenz zwischen den beiden Modellen: 34x beim Output. DeepSeek V4-Pro ist ein Modell mit 1,6 Billionen Parametern.

Claude Opus 4.7 kostet 5 US-Dollar pro Million Input-Tokens und 25 US-Dollar pro Million Output-Tokens. GPT-5.5 läuft bei 30 US-Dollar je Million Output-Tokens und verdoppelt damit die Rate seines Vorgängers. Gemini 2.5 Pro liegt bei 1,25 US-Dollar Input und 10 US-Dollar Output pro Million Tokens.

MiniMax M2.7 kostet 0,30 US-Dollar Input und 1,20 US-Dollar Output pro Million Tokens. Kimi K2.5 von Moonshot AI, mit 76,8% auf SWE-bench Verified, läuft zu 0,60 US-Dollar Input und 2,50 US-Dollar Output. GLM-5.1 von Z.AI schlug Claude Opus 4.6 in einem Coding-Benchmark im Q2 2026. Vier chinesische Frontier-Modelle wurden in einem 12-Tage-Fenster Anfang Mai ausgeliefert, alle mit weniger als einem Drittel der Kosten pro Token von Opus 4.7. Die Kosten von DeepSeek V4-Pro für gecachte Input-Tokens betragen 0,003625 US-Dollar je Million Tokens.

Marktpositionierung über Anbieter hinweg

Die Preislücke im Q2 2026 zwischen chinesischen und amerikanischen Frontier-Modellen liegt je nach Modellvergleich bei 15x bis 30x. Diese Ausgangsbasis besteht bereits vor Cache-Rabatten. Anthropic hielt die Rate Card für Claude Opus 4.7 unverändert, lieferte es aber mit einem neuen Tokenizer aus, der für denselben Eingangstext bis zu 35% mehr Tokens erzeugen kann.

View Source

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.