Xiaomi Memangkas Biaya API MiMo 80% Via Hierarchical Cache, Setara dengan Model GQA 10-Layer

Menurut Beating, Xiaomi mengungkap teknik optimasi inti untuk API MiMo-V2.5 setelah pemotongan harga terbaru yang selaras dengan DeepSeek. Mesin inferensi berbeban tinggi perusahaan tetap menguntungkan berkat arsitektur perhatian hibrida dan optimasi hierarkis pada cache KV.

Kerangka inferensi Xiaomi mencapai pengurangan biaya cache sebesar 80% dengan menerapkan optimasi hierarkis untuk sliding window attention (SWA), sekaligus meningkatkan kapasitas token hingga 5x. Model MiMo-V2.5-Pro dengan 70 lapisan, menggunakan rasio sparse 1:7 antara lapisan global attention (GA) dan SWA, menjalankan komputasi prefill yang setara dengan model global GQA tradisional 10 lapisan, sehingga menurunkan biaya inferensi secara signifikan.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar