DeepSeek 和小米大砍 API 定價,而美國實驗室則上調費率
DeepSeek 已在 2026 年 5 月 22 日將其對 DeepSeek V4-Pro 的 75% 折扣永久化,將輸出定價鎖定為每百萬 tokens $0.87。小米則在 2026 年 5 月 26 日跟進,將 MiMo-V2.5 的 API 價格最多下砍 99%(針對快取輸入),Pro 模型現為每百萬快取 tokens $0.0036。這些降價源自推論框架與 KV cache 架構的技術優化。這些調整出現於 OpenAI 在 4 月底啟動時將 GPT-5.5 的輸出價格翻倍至每百萬 tokens $30,且 Anthropic 也在出貨 Claude Opus 4.7,採用可讓相同輸入文字最多產生 35% 更多 tokens 的新 tokenizer,可能在速率牌價不變的情況下,抬高實際成本。
公布的永久定價變更
DeepSeek V4-Pro 現在每百萬 tokens 的輸入為 $0.435、輸出為 $0.87。先前原定在到期前結束的 75% 折扣,已在本週更早時變為永久。小米的 MiMo-V2.5-Pro 在 5 月 26 日的調整後,與相同的 $0.435/$0.87(每百萬 tokens)一致。MiMo-V2.5 的快取命中費用降至每百萬 tokens $0.0036。小米的帳單升級讓使用者以相同價格獲得 5 到 8 倍更多 tokens。原本 $100 的 Max 方案現在可提供 820 億 tokens,較 16 億提升。
降價背後的技術實作
小米 MiMo 團隊主管 Fuli Luo,以及共同開發 DeepSeek-V2 的前核心 DeepSeek 開發者,於 5 月 27 日在 X 上發布了技術解釋。推論框架現在支援針對 SWA 的分層式 KV cache 優化。生產推論引擎測試顯示,這項優化可讓快取 tokens 容量提升約 5 倍。系統透過約 80% 降低儲存與處理成本。Luo 寫道:「在這些已下調的 API 價格下,我們的生產推論引擎正以接近滿載的容量運行,而且我們仍能基本持平。」
DeepSeek V4 使用兩種交錯的注意力類型:一種對選擇性注意力,每 4 個 tokens 進行壓縮;另一種用於全域上下文,每 128 個 tokens 進行折疊。在 100 萬 tokens 的上下文下,V4-Pro 的 KV cache 只有其前代的 10% 大小。單 token 推論的運算成本為前者的 27%。
效能基準與對照定價
DeepSeek V4-Pro 在 SWE-Verified 上得分 80.6%。Claude Opus 4.6 在同一項基準(衡量真實 GitHub issue 解決)上得分 80.8%。兩款模型之間的定價落差:輸出端為 34 倍。DeepSeek V4-Pro 為 1.6 兆參數模型。
Claude Opus 4.7 的每百萬輸入 tokens 成本為 $5、每百萬輸出 tokens 為 $25。GPT-5.5 的每百萬輸出 tokens 為 $30,較其前代費率翻倍。Gemini 2.5 Pro 每百萬 tokens 的輸入為 $1.25、輸出為 $10。
MiniMax M2.7 每百萬 tokens 的輸入為 $0.30、輸出為 $1.20。來自 Moonshot AI 的 Kimi K2.5(在 SWE-bench Verified 上為 76.8%)運行成本為每百萬輸入 $0.60、每百萬輸出 $2.50。Z.AI 的 GLM-5.1 在 2026 年第二季的程式碼基準中擊敗 Claude Opus 4.6。5 月初在 12 天內就有四款中國前沿模型出貨,且每 token 成本都低於 Opus 4.7 的三分之一。DeepSeek V4-Pro 的快取輸入 tokens 成本為每百萬 tokens $0.003625。
各供應商之間的市場定位
2026 年第二季,中國與美國前沿模型之間的定價落差為 15x 到 30x,取決於模型比較。此基準是在快取折扣之前存在。Anthropic 讓 Claude Opus 4.7 的費率牌價維持不變,但隨附一款能讓相同輸入文字最多產生 35% 更多 tokens 的新 tokenizer。