DeepSeek і Xiaomi урізали ціни на API, тоді як американські лабораторії підвищують тарифи
DeepSeek зробив свою знижку 75% на DeepSeek V4-Pro постійною 22 травня 2026 року, зафіксувавши ціну на виведення на рівні $0,87 за мільйон токенів. Xiaomi наслідувала 26 травня, зменшивши ціни на API MiMo-V2.5 до 99% для кешованих вхідних даних: Pro-модель тепер коштує $0,0036 за мільйон токенів для кешованого введення. Зниження цін пояснюється технічними оптимізаціями в інференс-фреймворках і архітектурі KV cache. Зміни надійшли на тлі того, що OpenAI подвоїла ціни на виведення GPT-5.5 до $30 за мільйон токенів під час запуску наприкінці квітня, а Anthropic випустила Claude Opus 4.7 із новим токенізатором, який генерує до 35% більше токенів для ідентичного вхідного тексту, потенційно підвищуючи фактичні витрати навіть за незмінних тарифів.
Оголошені постійні зміни цін
DeepSeek V4-Pro тепер працює з $0,435 за вхід і $0,87 за вивід на мільйон токенів. Знижка 75%, яку раніше планували завершити, стала постійною на початку цього тижня. Xiaomi's MiMo-V2.5-Pro відповідає тим самим $0,435/$0,87 за мільйон токенів після скорочень 26 травня. Потрапляння в кеш для MiMo-V2.5 знизилися до $0,0036 за мільйон токенів. Підвищення тарифікації Xiaomi дає користувачам у 5–8 разів більше токенів за тією ж ціною. План Max за $100 тепер надає 82 мільярди токенів замість 1,6 мільярда.
Технічна реалізація зниження цін
Фулі Ло, керівник команди MiMo в Xiaomi і колишній ключовий розробник DeepSeek, який разом із іншими співавторив DeepSeek-V2, опублікував технічне пояснення в X 27 травня. Інференс-фреймворк тепер підтримує ієрархічну оптимізацію KV cache для SWA. Тести продакшн-інференс-движка показують, що ця оптимізація збільшує місткість кешованих токенів приблизно у 5 разів. Система зменшує витрати на зберігання й обробку приблизно на 80%. «Працюючи за цими новими зниженими цінами API, наш продакшн-інференс-движок працює майже на повній потужності, і ми все ще можемо фактично виходити в нуль», — написав Ло.
DeepSeek V4 використовує два типи attention, що чергуються: один стискає кожні чотири токени для селективної уваги, інший колапсує кожні 128 токенів для глобального контексту. За 1 мільйон токенів контексту KV cache V4-Pro має 10% розміру від кешу-попередника. Інференс на один токен працює за 27% від попередньої обчислювальної вартості.
Бенчмарки продуктивності та порівняльне ціноутворення
DeepSeek V4-Pro набрав 80,6% на SWE-Verified. Claude Opus 4.6 набрав 80,8% на тому ж бенчмарку, що вимірює реальне вирішення GitHub-issue. Розрив у ціні між двома моделями: 34x на виводі. DeepSeek V4-Pro — модель із 1,6 трильйона параметрів.
Claude Opus 4.7 коштує $5 за мільйон вхідних токенів і $25 за мільйон вихідних токенів. GPT-5.5 працює за $30 за мільйон вихідних токенів, удвічі дорожче за тариф попередника. Gemini 2.5 Pro розміщує ціни на рівні $1,25 за вхід і $10 за вивід на мільйон токенів.
MiniMax M2.7 коштує $0,30 за вхід і $1,20 за вивід на мільйон токенів. Kimi K2.5 від Moonshot AI, з 76,8% на SWE-bench Verified, працює за $0,60 за вхід і $2,50 за вивід. GLM-5.1 від Z.AI обігнав Claude Opus 4.6 у кодинговому бенчмарку в Q2 2026. Чотири китайські фронтирні моделі вийшли в 12-денне вікно на початку травня, і всі вони були менш ніж утричі дешевшими за вартість токена Opus 4.7. Вартість кешованих вхідних токенів DeepSeek V4-Pro — $0,003625 за мільйон токенів.
Позиціювання на ринку серед провайдерів
Розрив у цінах між китайськими та американськими фронтирними моделями у Q2 2026 коливається від 15x до 30x залежно від порівняння моделей. Це базове співвідношення існує до знижок за кеш. Anthropic залишила тарифну сітку Claude Opus 4.7 без змін, але відвантажила його з новим токенізатором, який може генерувати до 35% більше токенів для того ж самого вхідного тексту.