2026-03-27 05:02:16

Google merilis sebuah makalah berjudul TurboQuant, dan dalam waktu 24 jam komunitas sudah mem-porting-nya ke llama.cpp

Apa yang dilakukan TurboQuant? Mengompresi cache KV dari model besar menjadi 3-bit, mengurangi penggunaan memori sebanyak 6 kali, dan mempercepat inferensi di H100 hingga 8 kali lipat
Yang penting adalah—tidak perlu pelatihan ulang, tidak perlu fine-tuning, tidak kehilangan akurasi. Inilah salah satu alasan mengapa saham chip jatuh tajam.
Samsung dan SK Hynix turun lebih dari 6% di Seoul, Micron turun 6,9% di pasar AS.
Pasar khawatir—jika setiap model bisa menggunakan 6 kali lebih sedikit memori, maka permintaan HBM tidak akan berkurang?
Tapi saya rasa reaksi pasar terlalu berlebihan. Alasannya sangat sederhana. Memori yang dihemat tidak akan sia-sia. Cache KV yang lebih kecil berarti satu kartu bisa menjalankan konteks yang lebih besar dan lebih banyak permintaan secara bersamaan. Permintaan tidak akan berkurang, hanya akan dialokasikan ulang.
Ini sudah berulang kali terjadi dalam sejarah teknologi—CPU menjadi lebih cepat, perangkat lunak menghabiskan semua ruang performa. Bandwidth meningkat, streaming video menghabiskan semua bandwidth. Memori menjadi lebih hemat, model akan menjadi lebih besar dan lebih rakus.
Diskusi llama.cpp #20969 sudah memiliki implementasi CPU yang dapat dijalankan (murni C, tanpa dependensi) dan kernel CUDA.
Ada yang menjalankan di Apple Silicon menggunakan Metal. Ini berarti ambang batas menjalankan model secara lokal kembali turun satu tingkat.
TurboQuant dalam jangka pendek menekan sentimen saham chip, dan dalam jangka menengah adalah keuntungan efisiensi seluruh industri AI. Orang yang menjalankan model secara lokal akan mendapatkan keuntungan—Mac yang sama bisa menampung model yang lebih besar. Perusahaan chip jangan panik—permintaan tidak akan hilang, hanya akan digunakan dengan lebih efisien.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.