Xiaomi senkt MiMo-API-Kosten um 80% über hierarchisches Caching und erreicht ein 10-Schichten-GQA-Modell

DEEPSEEK-5,37%

Laut Beating hat Xiaomi Kern-Optimierungstechniken für seine MiMo-V2.5-API offengelegt, nachdem es in jüngster Zeit Preissenkungen vorgenommen hatte, die mit DeepSeek abgestimmt waren. Die hocheffiziente Inferenz-Engine des Unternehmens bleibt dank einer Hybrid-Attention-Architektur und einer hierarchischen KV-Cache-Optimierung profitabel.

Das Inferenz-Framework von Xiaomi senkte die Cache-Kosten um 80%, indem es eine hierarchische Optimierung für Sliding-Window-Attention (SWA) implementierte und so die Token-Kapazität um 5x steigerte. Das 70-Schichten-Modell MiMo-V2.5-Pro nutzt mit einem Verhältnis von 1:7 eine Sparse-Ratio zwischen den Schichten für globale Attention (GA) und SWA; dabei führt es Prefill-Berechnungen aus, die einer herkömmlichen 10-Schichten-Global-GQA-Modellleistung entsprechen und senkt die Inferenzkosten deutlich.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare