Xiaomi сокращает расходы на MiMo API на 80% за счёт иерархического кэша — эквивалент модели 10-уровневого GQA

2026-05-27 14:31:02

По данным Beating, Xiaomi раскрыла ключевые техники оптимизации для своей MiMo-V2.5 API после недавних сокращений цен, синхронизированных с DeepSeek. Высоконагрузочный инференс-движок компании сохраняет прибыльность за счёт гибридной архитектуры attention и оптимизации иерархического KV cache.

Инференс-фреймворк Xiaomi добился 80% снижения затрат на кэш, внедрив иерархическую оптимизацию для sliding window attention (SWA), увеличив токеновую ёмкость в 5 раз. Модель MiMo-V2.5-Pro с 70 слоями, использующая соотношение 1:7 между слоями global attention (GA) и SWA, выполняет prefill-вычисления, эквивалентные традиционной модели global GQA на 10 слоях, существенно снижая расходы на инференс.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-27 04:57

MiniMax публикует технический отчёт M2; система Forge обеспечивает ускорение обучения в 40 раз

05-27 01:06

Xiaomi MiMo API снижает цены до 99%, запускает унифицированную биллинговую модель с контекстом

05-26 09:33

Xiaomi внедряет инновации в бизнес-сегмент: выручка достигла 13,9 млрд юаней, рост на 6,9% в годовом исчислении в 1 квартале 2026 года

05-26 08:14

DeepSeek V4 Flash занял 1-е место на OpenRouter по итогам месяца после запуска, набрав 7,99 триллиона токенов

05-26 06:04

B.AI запускает Gemini 3.5 Flash в веб-чате, расширяя доступ к двум API и чат-каналам

Детальный анализ