Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Launchpad
Jadi yang pertama untuk proyek token besar berikutnya
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Google merilis sebuah makalah berjudul TurboQuant, dan dalam waktu 24 jam komunitas sudah mem-porting-nya ke llama.cpp
Apa yang dilakukan TurboQuant? Mengompresi cache KV dari model besar menjadi 3-bit, mengurangi penggunaan memori sebanyak 6 kali, dan mempercepat inferensi di H100 hingga 8 kali lipat
Yang penting adalah—tidak perlu pelatihan ulang, tidak perlu fine-tuning, tidak kehilangan akurasi. Inilah salah satu alasan mengapa saham chip jatuh tajam.
Samsung dan SK Hynix turun lebih dari 6% di Seoul, Micron turun 6,9% di pasar AS.
Pasar khawatir—jika setiap model bisa menggunakan 6 kali lebih sedikit memori, maka permintaan HBM tidak akan berkurang?
Tapi saya rasa reaksi pasar terlalu berlebihan. Alasannya sangat sederhana. Memori yang dihemat tidak akan sia-sia. Cache KV yang lebih kecil berarti satu kartu bisa menjalankan konteks yang lebih besar dan lebih banyak permintaan secara bersamaan. Permintaan tidak akan berkurang, hanya akan dialokasikan ulang.
Ini sudah berulang kali terjadi dalam sejarah teknologi—CPU menjadi lebih cepat, perangkat lunak menghabiskan semua ruang performa. Bandwidth meningkat, streaming video menghabiskan semua bandwidth. Memori menjadi lebih hemat, model akan menjadi lebih besar dan lebih rakus.
Diskusi llama.cpp #20969 sudah memiliki implementasi CPU yang dapat dijalankan (murni C, tanpa dependensi) dan kernel CUDA.
Ada yang menjalankan di Apple Silicon menggunakan Metal. Ini berarti ambang batas menjalankan model secara lokal kembali turun satu tingkat.
TurboQuant dalam jangka pendek menekan sentimen saham chip, dan dalam jangka menengah adalah keuntungan efisiensi seluruh industri AI. Orang yang menjalankan model secara lokal akan mendapatkan keuntungan—Mac yang sama bisa menampung model yang lebih besar. Perusahaan chip jangan panik—permintaan tidak akan hilang, hanya akan digunakan dengan lebih efisien.