Berita dari Coinjie.com, Luo Fuli mengumumkan di platform X mekanisme pengurangan biaya algoritma untuk seri model besar yang dikembangkan sendiri, MiMo-v2.5, setelah penurunan harga API secara permanen. Dia mengungkapkan bahwa setelah harga API disesuaikan dengan DeepSeek, mesin inferensi beban tinggi Xiaomi masih dapat menjaga keseimbangan keuntungan dan kerugian, dengan penurunan biaya yang terutama berasal dari arsitektur perhatian campuran dan optimisasi cache KV berhierarki. Menargetkan pengurangan biaya cache hit sebesar 99%, kerangka inferensi Xiaomi menerapkan optimisasi cache KV berhierarki untuk perhatian jendela geser SWA, dan pengujian produksi menunjukkan bahwa optimisasi berhierarki meningkatkan kapasitas token cache hingga 5 kali lipat, mengurangi biaya cache sebesar 80%. Luo Fuli menyatakan bahwa layanan inferensi dengan biaya rendah akan mendorong kebutuhan kecerdasan terminal, dan perusahaan model besar harus menghindari perang harga yang buta, dengan merancang kolaborasi tingkat dasar antara algoritma dan sistem inferensi, sehingga mengendalikan biaya operasional aktual di bawah garis impas.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

9 Suka

Hadiah
9
5
2
Bagikan

Komentar

Tambahkan komentar

ASolitaryRockBeforeTheVolcano

· 2jam yang lalu

MiMo kali ini benar-benar brutal, penurunan biaya sebesar 99% terdengar seperti film fiksi ilmiah, tetapi optimisasi SWA memang ada sesuatu yang istimewa

Lihat AsliBalas0

LendingRateAnxiety

· 2jam yang lalu

Perhatian campuran + cache hierarkis, kombinasi ini membuat biaya inferensi untuk pabrik kecil menjadi lebih besar.

Lihat AsliBalas0

Pragmatists

· 2jam yang lalu

Bagaimana cara meningkatkan kapasitas cache hingga 5 kali lipat? Apakah ada makalah tentang cache KV berlapis yang bisa saya pelajari secara mendalam?

Lihat AsliBalas0

InstantNoodlesWithContracts

· 2jam yang lalu

Kolaborasi antara algoritma dan sistem dalam menurunkan biaya secara bersamaan adalah solusi yang tepat, hanya mengandalkan harga kertas saja tidak cukup, Luo Fuli sangat memahami hal ini dengan tajam

Lihat AsliBalas0

PocketValidator

· 2jam yang lalu

DeepSeek setelah penyesuaian masih bisa mencapai titik impas, menunjukkan bahwa penetapan harga awal memang menyisakan ruang, sekarang dianggap kembali ke tingkat yang wajar

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
StockTradingChallengeUpTo17000U
16.27M Popularitas
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
827.12K Popularitas
#
IsraelStrikesIranBTCPlunges
49.71K Popularitas
#
GatePredictionMarketAddsSmartMoneyTracking
12.95M Popularitas
#
MicronMarketCapBreaks1Trillion
41.65K Popularitas

Disematkan

peta situs

Luo Fuli mengungkap rahasia pengurangan biaya dasar MiMo: perhitungan perhatian pra-pengisian berkurang menjadi tingkat GQA global 10 lapis

Topik Trending

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Disematkan