Laut Beating hat Xiaomi Kern-Optimierungstechniken für seine MiMo-V2.5-API offengelegt, nachdem es in jüngster Zeit Preissenkungen vorgenommen hatte, die mit DeepSeek abgestimmt waren. Die hocheffiziente Inferenz-Engine des Unternehmens bleibt dank einer Hybrid-Attention-Architektur und einer hierarchischen KV-Cache-Optimierung profitabel.
Das Inferenz-Framework von Xiaomi senkte die Cache-Kosten um 80%, indem es eine hierarchische Optimierung für Sliding-Window-Attention (SWA) implementierte und so die Token-Kapazität um 5x steigerte. Das 70-Schichten-Modell MiMo-V2.5-Pro nutzt mit einem Verhältnis von 1:7 eine Sparse-Ratio zwischen den Schichten für globale Attention (GA) und SWA; dabei führt es Prefill-Berechnungen aus, die einer herkömmlichen 10-Schichten-Global-GQA-Modellleistung entsprechen und senkt die Inferenzkosten deutlich.