De acordo com a Beating, a Xiaomi revelou técnicas de otimização de base para a sua API MiMo-V2.5 na sequência de recentes cortes de preços alinhados com a DeepSeek. O motor de inferência de elevada carga da empresa mantém a rentabilidade através de uma arquitetura híbrida de atenção e otimização hierárquica do cache KV.
A framework de inferência da Xiaomi alcançou uma redução de 80% nos custos de cache ao implementar otimização hierárquica para a atenção com janela deslizante (SWA), aumentando a capacidade de tokens em 5x. O modelo MiMo-V2.5-Pro, com 70 camadas, usando uma proporção esparsa 1:7 entre camadas de atenção global (GA) e SWA, executa cálculos de prefill equivalentes a um modelo GQA global tradicional com 10 camadas, reduzindo significativamente os custos de inferência.