DeepSeek und Xiaomi senken die API-Preise, während US-Labs die Gebühren erhöhen
DeepSeek machte seinen 75%-Rabatt auf DeepSeek V4-Pro am 22. Mai 2026 dauerhaft und legte damit den Ausgabe-Preis auf 0,87 US-Dollar je Million Tokens fest. Xiaomi zog am 26. Mai nach und senkte die MiMo-V2.5-API-Preise um bis zu 99% für gecachte Inputs. Das Pro-Modell liegt jetzt bei 0,0036 US-Dollar je Million Tokens für gecachte Eingaben. Die Preissenkungen gehen auf technische Optimierungen in Inferenz-Frameworks und der KV-Cache-Architektur zurück. Diese Kürzungen kamen, als OpenAI die GPT-5.5-Ausgabe-Preise verdoppelte: auf 30 US-Dollar je Million Tokens zum Launch Ende April. Auch Anthropic lieferte Claude Opus 4.7 mit einem neuen Tokenizer aus, der für identischen Eingangstext bis zu 35% mehr Tokens erzeugt und damit die tatsächlichen Kosten potenziell erhöht, obwohl sich die Rate Cards nicht ändern.
Dauerhafte Preisänderungen angekündigt
DeepSeek V4-Pro läuft jetzt mit 0,435 US-Dollar für den Input und 0,87 US-Dollar für den Output pro Million Tokens. Der 75%-Rabatt, zuvor mit Ablaufdatum versehen, wurde diese Woche früher dauerhaft. Xiaomi's MiMo-V2.5-Pro entspricht nach den Kürzungen vom 26. Mai denselben 0,435/0,87 US-Dollar je Million Tokens. Cache-Hits für MiMo-V2.5 liegen nun bei 0,0036 US-Dollar je Million Tokens. Das Billing-Upgrade von Xiaomi verschafft Nutzern 5 bis 8-mal mehr Tokens zum gleichen Preis. Der Max-Plan zu 100 US-Dollar bietet nun 82 Milliarden Tokens, gegenüber 1,6 Milliarden.
Technische Umsetzung hinter den Preissenkungen
Fuli Luo, Leiter des MiMo-Teams von Xiaomi und ehemaliger Core-DeepSeek-Entwickler, der DeepSeek-V2 mitaufgebaut hat, veröffentlichte am 27. Mai eine technische Erklärung auf X. Das Inferenz-Framework unterstützt jetzt eine hierarchische KV-Cache-Optimierung für SWA. Produktionstests des Inferenz-Engines zeigen, dass diese Optimierung die Kapazität gecachter Tokens um etwa das Fünffache erhöht. Das System senkt Speicher- und Verarbeitungskosten um rund 80%. „Bei Betrieb zu diesen neu reduzierten API-Preisen läuft unsere Produktion-Inferenz-Engine praktisch mit voller Kapazität, und wir können uns trotzdem im Wesentlichen die Waage halten“, schrieb Luo.
DeepSeek V4 nutzt zwei ineinander verschachtelte Attention-Typen: einen, der alle vier Tokens für selective attention komprimiert, und einen, der alle 128 Tokens für globalen Kontext kollabiert. Bei einer Million Tokens Kontext ist der KV-Cache von V4-Pro nur 10% so groß wie der seines Vorgängers. Einzelfolgende Token-Inferenz liegt bei 27% der vorherigen Rechenkosten.
Performance-Benchmarks und vergleichende Preisgestaltung
DeepSeek V4-Pro erzielte 80,6% auf SWE-Verified. Claude Opus 4.6 erreichte 80,8% auf demselben Benchmark, der die tatsächliche Auflösung von GitHub-Issues misst. Die Preisdifferenz zwischen den beiden Modellen: 34x beim Output. DeepSeek V4-Pro ist ein Modell mit 1,6 Billionen Parametern.
Claude Opus 4.7 kostet 5 US-Dollar pro Million Input-Tokens und 25 US-Dollar pro Million Output-Tokens. GPT-5.5 läuft bei 30 US-Dollar je Million Output-Tokens und verdoppelt damit die Rate seines Vorgängers. Gemini 2.5 Pro liegt bei 1,25 US-Dollar Input und 10 US-Dollar Output pro Million Tokens.
MiniMax M2.7 kostet 0,30 US-Dollar Input und 1,20 US-Dollar Output pro Million Tokens. Kimi K2.5 von Moonshot AI, mit 76,8% auf SWE-bench Verified, läuft zu 0,60 US-Dollar Input und 2,50 US-Dollar Output. GLM-5.1 von Z.AI schlug Claude Opus 4.6 in einem Coding-Benchmark im Q2 2026. Vier chinesische Frontier-Modelle wurden in einem 12-Tage-Fenster Anfang Mai ausgeliefert, alle mit weniger als einem Drittel der Kosten pro Token von Opus 4.7. Die Kosten von DeepSeek V4-Pro für gecachte Input-Tokens betragen 0,003625 US-Dollar je Million Tokens.
Marktpositionierung über Anbieter hinweg
Die Preislücke im Q2 2026 zwischen chinesischen und amerikanischen Frontier-Modellen liegt je nach Modellvergleich bei 15x bis 30x. Diese Ausgangsbasis besteht bereits vor Cache-Rabatten. Anthropic hielt die Rate Card für Claude Opus 4.7 unverändert, lieferte es aber mit einem neuen Tokenizer aus, der für denselben Eingangstext bis zu 35% mehr Tokens erzeugen kann.