Xiaomi сокращает расходы на MiMo API на 80% за счёт иерархического кэша — эквивалент модели 10-уровневого GQA

По данным Beating, Xiaomi раскрыла ключевые техники оптимизации для своей MiMo-V2.5 API после недавних сокращений цен, синхронизированных с DeepSeek. Высоконагрузочный инференс-движок компании сохраняет прибыльность за счёт гибридной архитектуры attention и оптимизации иерархического KV cache.

Инференс-фреймворк Xiaomi добился 80% снижения затрат на кэш, внедрив иерархическую оптимизацию для sliding window attention (SWA), увеличив токеновую ёмкость в 5 раз. Модель MiMo-V2.5-Pro с 70 слоями, использующая соотношение 1:7 между слоями global attention (GA) и SWA, выполняет prefill-вычисления, эквивалентные традиционной модели global GQA на 10 слоях, существенно снижая расходы на инференс.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев