За повідомленням Beating, Xiaomi розкрила ключові техніки оптимізації для своєї API MiMo-V2.5 після нещодавніх знинижень цін, узгоджених із DeepSeek. Високонавантажений інференсний рушій компанії зберігає прибутковість завдяки гібридній архітектурі attention ієрархічній оптимізації KV cache.
Інференсна платформа Xiaomi досягла 80% скорочення витрат на кеш завдяки ієрархічній оптимізації для sliding window attention (SWA), збільшивши місткість токенів у 5 разів. Модель MiMo-V2.5-Pro з 70 шарами, використовуючи співвідношення розрідження 1:7 між шарами global attention (GA) і SWA, виконує prefill-обчислення, еквівалентні традиційній моделі глобального GQA з 10 шарами, суттєво знижуючи витрати на інференс.