Divisi QVAC Tether mengumumkan pada 17 Maret 2026, peluncuran kerangka penyempurnaan LoRA lintas platform pertama di dunia untuk model BitNet Microsoft (LLM 1-bit), memungkinkan pelatihan dan inferensi AI dengan miliaran parameter di GPU konsumen dan ponsel pintar.
Kerangka kerja ini, terintegrasi dalam QVAC Fabric, mengurangi kebutuhan memori dan komputasi secara cukup untuk menyempurnakan model hingga 13 miliar parameter di perangkat termasuk iPhone 16, Galaxy S25, dan Pixel 9, dengan model 125 juta parameter dapat dilatih dalam sekitar 10 menit di perangkat mobile.
Peluncuran ini menandai langkah penting dalam pergeseran strategis Tether dari penerbit stablecoin menjadi penyedia infrastruktur yang lebih luas, menantang model pengembangan AI terpusat yang didominasi oleh penyedia cloud dan perangkat keras NVIDIA khusus.
Kerangka QVAC Fabric memungkinkan penyempurnaan LoRA (Low-Rank Adaptation) dan percepatan inferensi di berbagai perangkat keras konsumen yang heterogen, termasuk:
GPU Desktop: AMD, Intel, dan NVIDIA
Ekosistem Apple: Chip Apple Silicon M dan GPU Bionic mobile
GPU Mobile: Adreno (Samsung), Mali, dan lainnya
Kompatibilitas luas ini menghilangkan kebutuhan sebelumnya akan sistem NVIDIA tingkat perusahaan atau infrastruktur cloud, yang telah memusatkan pengembangan AI di antara organisasi dengan anggaran perangkat keras khusus.
Tim engineering Tether menunjukkan keberhasilan penyempurnaan di ponsel flagship dengan hasil berikut:
Model 125M parameter: Penyempurnaan di Samsung Galaxy S25 (GPU Adreno) selesai dalam sekitar 10 menit untuk dataset biomedis sekitar 300 dokumen (~18k token)
Model 1B parameter: Penyempurnaan data biomedis yang sama selesai dalam 1 jam 18 menit di Samsung S25 dan 1 jam 45 menit di iPhone 16
Kapasitas maksimum: Model hingga 13 miliar parameter berhasil disempurnakan di iPhone 16, mendorong kemampuan perangkat edge jauh melampaui demonstrasi model sub-3B parameter biasanya
Inferensi BitNet di GPU mobile menunjukkan percepatan substansial dibandingkan baseline CPU:
Peningkatan kecepatan: Performa GPU 2 hingga 11 kali lebih cepat daripada CPU di berbagai perangkat yang diuji
Implikasi praktis: GPU mobile kini dapat mendukung beban kerja yang sebelumnya memerlukan perangkat keras mahal atau pusat data khusus
Benchmark menunjukkan penghematan memori signifikan dibandingkan model konvensional:
BitNet-1B (TQ1_0) : Menggunakan hingga 77,8% VRAM lebih sedikit dibanding Gemma-3-1B (16-bit)
dibanding Qwen3-0.6B: 65,6% VRAM lebih sedikit dibanding versi 16-bit
Pengurangan ini berlaku untuk beban kerja inferensi dan penyempurnaan LoRA, menciptakan ruang memori yang berarti untuk model yang lebih besar dan alur kerja personalisasi di perangkat keras yang sebelumnya dianggap tidak memadai.
Kerangka ini memungkinkan penyempurnaan model dua kali lebih besar di perangkat edge dibandingkan model Q4 non-BitNet, menunjukkan efisiensi memori superior dari arsitektur BitNet.
CEO Tether, Paolo Ardoino, menempatkan peluncuran ini dalam visi yang lebih luas tentang AI yang dapat diakses: “Kecerdasan akan menjadi faktor penentu utama di masa depan masyarakat. Ketika pelatihan model bahasa besar bergantung pada infrastruktur terpusat, inovasi menjadi stagnan, ekosistem menjadi rapuh, dan keseimbangan sosial berisiko. Dengan memungkinkan pelatihan model besar yang bermakna di perangkat konsumen, termasuk ponsel, QVAC Tether membuktikan bahwa AI canggih dapat didesentralisasi, inklusif, dan memberdayakan semua orang.”
Efisiensi ini memungkinkan pembelajaran federasi, memungkinkan pembaruan yang disempurnakan dilatih dan dibagikan di berbagai perangkat sambil menjaga data pengguna tetap lokal. Ini mengurangi ketergantungan pada infrastruktur terpusat sekaligus memungkinkan peningkatan model secara kolaboratif.
Dengan mengurangi ketergantungan pada penyedia cloud, kerangka ini memungkinkan pengguna menyimpan data sensitif secara lokal selama penyempurnaan, mengatasi kekhawatiran privasi terkait pengiriman data ke server terpusat.
Peluncuran Tether secara langsung menantang model pengembangan AI terpusat yang didominasi oleh hyperscalers dan penyedia cloud. Dengan memungkinkan pekerjaan AI yang bermakna di perangkat konsumen, perusahaan menempatkan dirinya sebagai pemain infrastruktur dalam tumpukan AI edge, independen dari yurisdiksi cloud tradisional.
Kerangka ini, termasuk makalah, adaptor, benchmark, dan binary lintas platform, tersedia di Hugging Face. Pendekatan open-source ini bertujuan menjadikan QVAC jalur default bagi pengembang independen dan laboratorium kecil untuk menerapkan AI di perangkat konsumen, membangun relevansi budaya dan teknis di luar kerangka regulasi tradisional.
Peluncuran ini melanjutkan ekspansi Tether dari penerbit stablecoin ke infrastruktur digital penting, mengikuti inisiatif QVAC sebelumnya termasuk dataset Genesis I senilai 41 miliar token dan AI Workbench lokal. Perusahaan telah menandai komitmen berkelanjutan terhadap infrastruktur AI terdesentralisasi selama “minggu, bulan, dan tahun mendatang.”
Dokumentasi teknis lengkap, termasuk benchmark performa, detail implementasi, dan binary lintas platform, tersedia melalui blog Hugging Face: “LoRA Fine-Tuning BitNet b1.58 LLMs on Heterogeneous Edge GPUs via QVAC Fabric.”
Tether menggambarkan misinya sebagai memajukan kebebasan, transparansi, dan inovasi melalui teknologi, memungkinkan pertukaran informasi peer-to-peer langsung tanpa perantara yang tidak perlu. Perusahaan bertujuan menggantikan model terpusat dengan infrastruktur terdesentralisasi yang dirancang untuk privasi, efisiensi, dan ketahanan.
Kerangka QVAC Fabric BitNet LoRA mendukung GPU konsumen dari AMD, Intel, dan NVIDIA; ekosistem Apple termasuk chip Silicon M dan GPU Bionic mobile; serta GPU mobile termasuk Adreno (Samsung), Mali, dan lainnya. Ini memungkinkan penyempurnaan AI di laptop, desktop, dan ponsel flagship tanpa perangkat keras perusahaan khusus.
Menurut benchmark Tether, inferensi berbasis GPU di perangkat mobile flagship berjalan 2 hingga 11 kali lebih cepat daripada baseline CPU. Penggunaan memori turun hingga 77,8% dibanding model konvensional, memungkinkan model yang lebih besar berjalan dalam batasan perangkat keras yang sama.
Penyempurnaan model 13 miliar parameter di ponsel pintar merupakan langkah besar dari demonstrasi AI di perangkat yang biasanya berkisar pada model sub-3B parameter atau memindahkan beban kerja berat ke cloud. Kemampuan ini menunjukkan masa depan di mana personalisasi model yang serius dan adaptasi domain spesifik dapat dilakukan secara lokal, tanpa mengirim data pengguna ke server terpusat.