Beating informa que Xiaomi reveló técnicas de optimización central para su API MiMo-V2.5 tras recientes recortes de precio alineados con DeepSeek. El motor de inferencia de alta carga de la empresa mantiene la rentabilidad mediante una arquitectura híbrida de atención y la optimización jerárquica de la caché KV.
El marco de inferencia de Xiaomi logró una reducción del 80% en los costos de caché al implementar optimización jerárquica para la atención con ventana deslizante (SWA), aumentando la capacidad de tokens en 5 veces. El modelo MiMo-V2.5-Pro de 70 capas, que usa una proporción dispersa de 1:7 entre las capas de atención global (GA) y las de SWA, realiza cómputos de prefill equivalentes a un modelo tradicional de GQA global de 10 capas, reduciendo de forma significativa los costos de inferencia.