Theo Beating, Xiaomi đã tiết lộ các kỹ thuật tối ưu hóa cốt lõi cho API MiMo-V2.5 của mình sau đợt cắt giảm giá gần đây đồng bộ với DeepSeek. Công cụ suy luận chịu tải cao của công ty vẫn duy trì lợi nhuận nhờ kiến trúc attention lai và tối ưu hóa bộ nhớ đệm KV phân cấp.
Khung suy luận của Xiaomi đạt mức giảm 80% chi phí cache bằng cách triển khai tối ưu hóa phân cấp cho sliding window attention (SWA), đồng thời tăng dung lượng token lên 5 lần. Mô hình MiMo-V2.5-Pro gồm 70 lớp, sử dụng tỷ lệ thưa 1:7 giữa các lớp global attention (GA) và SWA, thực hiện các phép tính prefill tương đương với mô hình global GQA truyền thống 10 lớp, qua đó giảm đáng kể chi phí suy luận.