DeepSeek и Xiaomi урезают цены на API, пока американские лаборатории повышают ставки
DeepSeek закрепила 75% скидку на DeepSeek V4-Pro навсегда 22 мая 2026 года, зафиксировав стоимость вывода на уровне $0,87 за миллион токенов. Xiaomi последовала 26 мая, снизив цены на API MiMo-V2.5 до 99% для кэшированных входных данных: модель Pro теперь стоит $0,0036 за миллион токенов для кэшированного ввода. Снижение цен объясняется техническими оптимизациями в инференс-фреймворках и архитектуре KV cache. Эти изменения пришли на фоне того, что OpenAI удвоила цены вывода GPT-5.5 до $30 за миллион токенов при запуске в конце апреля, а Anthropic поставила Claude Opus 4.7 с новым токенизатором, который генерирует до 35% больше токенов для идентичного входного текста, потенциально раздувая реальные затраты при неизменных прайс-листах.
Постоянные изменения в ценах
DeepSeek V4-Pro теперь стоит $0,435 за ввод и $0,87 за вывод за миллион токенов. 75% скидка, ранее установленная на истечение, стала постоянной на этой неделе. Xiaomi's MiMo-V2.5-Pro соответствует тем же $0,435/$0,87 за миллион токенов после сокращений 26 мая. Попадания в кэш для MiMo-V2.5 упали до $0,0036 за миллион токенов. Обновление биллинга Xiaomi дает пользователям в 5–8 раз больше токенов по той же цене. План Max за $100 теперь предоставляет 82 миллиарда токенов, против 1,6 миллиарда.
Техническая реализация за снижением цен
Фули Ло, руководитель команды MiMo в Xiaomi и бывший ключевой разработчик DeepSeek, который со-строил DeepSeek-V2, опубликовал техническое объяснение на X 27 мая. Инференс-фреймворк теперь поддерживает иерархическую оптимизацию KV cache для SWA. Тесты продакшн-инференс-движка показывают, что эта оптимизация повышает вместимость кэшированных токенов примерно в пять раз. Система снижает затраты на хранение и обработку примерно на 80%. «Работая на этих вновь сниженных API-ценах, наш продакшн-инференс-движок работает почти на полной мощности, и мы все еще по сути можем выйти в безубыточность», — написал Ло.
DeepSeek V4 использует два взаимно перемежающихся типа attention: один сжимает каждые четыре токена для выборочного внимания, другой коллапсирует каждые 128 токенов для глобального контекста. На одном миллионе токенов контекста KV cache V4-Pro составляет 10% размера KV cache предшественника. Инференс по одному токену идет на 27% от предыдущей вычислительной стоимости.
Бенчмарки производительности и сравнительные цены
DeepSeek V4-Pro набрал 80,6% на SWE-Verified. Claude Opus 4.6 набрал 80,8% на том же бенчмарке, измеряющем реальное разрешение issue на GitHub. Разрыв в цене между двумя моделями: 34x на выходе. DeepSeek V4-Pro — модель на 1,6 триллиона параметров.
Claude Opus 4.7 стоит $5 за миллион входных токенов и $25 за миллион выходных токенов. GPT-5.5 работает на $30 за миллион выходных токенов, удваивая ставку предшественника. Gemini 2.5 Pro находится на $1,25 за вход и $10 за выход за миллион токенов.
MiniMax M2.7 стоит $0,30 за ввод и $1,20 за вывод за миллион токенов. Kimi K2.5 от Moonshot AI, с 76,8% на SWE-bench Verified, работает на $0,60 за ввод и $2,50 за вывод. GLM-5.1 от Z.AI обогнал Claude Opus 4.6 на кодинговом бенчмарке во 2 квартале 2026 года. Четыре китайские «фронтирные» модели вышли в 12-дневное окно в начале мая, все — менее чем на треть стоимости одного токена Opus 4.7. Стоимость DeepSeek V4-Pro для кэшированных входных токенов — $0,003625 за миллион токенов.
Позиционирование на рынке у разных провайдеров
Разрыв в ценах между китайскими и американскими «фронтирными» моделями в Q2 2026 составляет от 15x до 30x в зависимости от сравнения моделей. Эта базовая разница существует до скидок на кэш. Anthropic сохранила прайс-лист Claude Opus 4.7 без изменений, но поставила его с новым токенизатором, который может генерировать до 35% больше токенов для того же входного текста.