Luo Fuli mengungkap rahasia pengurangan biaya dasar MiMo: perhitungan perhatian pra-pengisian berkurang menjadi tingkat GQA global 10 lapis

robot
Pembuatan abstrak sedang berlangsung
Berita dari Coinjie.com, Luo Fuli mengumumkan di platform X mekanisme pengurangan biaya algoritma untuk seri model besar yang dikembangkan sendiri, MiMo-v2.5, setelah penurunan harga API secara permanen. Dia mengungkapkan bahwa setelah harga API disesuaikan dengan DeepSeek, mesin inferensi beban tinggi Xiaomi masih dapat menjaga keseimbangan keuntungan dan kerugian, dengan penurunan biaya yang terutama berasal dari arsitektur perhatian campuran dan optimisasi cache KV berhierarki. Menargetkan pengurangan biaya cache hit sebesar 99%, kerangka inferensi Xiaomi menerapkan optimisasi cache KV berhierarki untuk perhatian jendela geser SWA, dan pengujian produksi menunjukkan bahwa optimisasi berhierarki meningkatkan kapasitas token cache hingga 5 kali lipat, mengurangi biaya cache sebesar 80%. Luo Fuli menyatakan bahwa layanan inferensi dengan biaya rendah akan mendorong kebutuhan kecerdasan terminal, dan perusahaan model besar harus menghindari perang harga yang buta, dengan merancang kolaborasi tingkat dasar antara algoritma dan sistem inferensi, sehingga mengendalikan biaya operasional aktual di bawah garis impas.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
ASolitaryRockBeforeTheVolcano
· 2jam yang lalu
MiMo kali ini benar-benar brutal, penurunan biaya sebesar 99% terdengar seperti film fiksi ilmiah, tetapi optimisasi SWA memang ada sesuatu yang istimewa
Lihat AsliBalas0
LendingRateAnxiety
· 2jam yang lalu
Perhatian campuran + cache hierarkis, kombinasi ini membuat biaya inferensi untuk pabrik kecil menjadi lebih besar.
Lihat AsliBalas0
Pragmatists
· 2jam yang lalu
Bagaimana cara meningkatkan kapasitas cache hingga 5 kali lipat? Apakah ada makalah tentang cache KV berlapis yang bisa saya pelajari secara mendalam?
Lihat AsliBalas0
InstantNoodlesWithContracts
· 2jam yang lalu
Kolaborasi antara algoritma dan sistem dalam menurunkan biaya secara bersamaan adalah solusi yang tepat, hanya mengandalkan harga kertas saja tidak cukup, Luo Fuli sangat memahami hal ini dengan tajam
Lihat AsliBalas0
PocketValidator
· 2jam yang lalu
DeepSeek setelah penyesuaian masih bisa mencapai titik impas, menunjukkan bahwa penetapan harga awal memang menyisakan ruang, sekarang dianggap kembali ke tingkat yang wajar
Lihat AsliBalas0