Xiaomi Знижує витрати на MiMo API на 80% через ієрархічний кеш, що відповідає моделі GQA з 10 шарами

За повідомленням Beating, Xiaomi розкрила ключові техніки оптимізації для своєї API MiMo-V2.5 після нещодавніх знинижень цін, узгоджених із DeepSeek. Високонавантажений інференсний рушій компанії зберігає прибутковість завдяки гібридній архітектурі attention ієрархічній оптимізації KV cache.

Інференсна платформа Xiaomi досягла 80% скорочення витрат на кеш завдяки ієрархічній оптимізації для sliding window attention (SWA), збільшивши місткість токенів у 5 разів. Модель MiMo-V2.5-Pro з 70 шарами, використовуючи співвідношення розрідження 1:7 між шарами global attention (GA) і SWA, виконує prefill-обчислення, еквівалентні традиційній моделі глобального GQA з 10 шарами, суттєво знижуючи витрати на інференс.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів