D’après Beating, Xiaomi a révélé des techniques d’optimisation clés pour son API MiMo-V2,5 après des baisses de prix récentes alignées sur DeepSeek. Le moteur d’inférence à forte charge de l’entreprise conserve sa rentabilité grâce à une architecture d’attention hybride et à l’optimisation hiérarchique du cache KV.
Le framework d’inférence de Xiaomi a réduit de 80% les coûts de cache en appliquant une optimisation hiérarchique pour l’attention à fenêtre glissante (SWA), tout en augmentant la capacité en jetons de 5x. Le modèle MiMo-V2,5-Pro à 70 couches, utilisant un ratio sparse de 1:7 entre les couches d’attention globale (GA) et SWA, effectue des calculs de préremplissage équivalents à ceux d’un modèle GQA global traditionnel à 10 couches, réduisant nettement les coûts d’inférence.