Google DeepMind Rilis DiffusionGemma dengan Peningkatan Kecepatan 4x untuk AI Lokal

2026-06-10 19:39:38

Google DeepMind merilis DiffusionGemma, anggota baru dari keluarga open model Gemma 4 yang menghasilkan teks melalui pemrosesan paralel, bukan generasi token berurutan. Model ini mencapai kinerja yang lebih cepat dan lebih efisien di perangkat keras lokal, termasuk sistem Nvidia DGX dan GPU gaming konsumen. Berbeda dengan model autoregresif yang menghasilkan teks dari kiri ke kanan satu token pada satu waktu, DiffusionGemma menggunakan pendekatan berbasis difusi yang mirip dengan model generasi gambar: dimulai dari placeholder token dan menyempurnakannya dalam beberapa putaran untuk menghasilkan blok teks penuh secara bersamaan. Perubahan arsitektur ini memungkinkan kecepatan output sekitar empat kali lipat dibanding model Gemma autoregresif berukuran serupa, sambil tetap muat dalam batas memori GPU konsumen kelas atas.

DiffusionGemma Menggunakan Arsitektur Berbasis Difusi untuk Generasi Teks Paralel

Kebanyakan model AI dirancang secara autoregresif, menghasilkan teks dari kiri ke kanan satu token pada satu waktu. DiffusionGemma memiliki lebih banyak kesamaan dengan model generasi gambar, yang memulai dengan keadaan diam lalu menghilangkan noise untuk menciptakan konten yang diinginkan. Model ini menjalankan sekumpulan placeholder tokens di atas kanvas sebanyak beberapa kali untuk menghasilkan token yang mungkin, lalu menggunakan hasil tersebut untuk meningkatkan estimasi token lainnya. Di akhir proses, model menyelesaikan output token-nya dalam satu blok besar—kanvas teks yang “telah didenoise”.

DiffusionGemma adalah model Mixture of Experts (MoE) dengan total 26 miliar parameter, tetapi hanya 3,8 miliar yang diaktifkan saat inferensi. Artinya, model ini harus muat dalam alokasi RAM 18GB pada GPU kelas atas. Pendekatan ini menggeser hambatan dari bandwidth memori ke komputasi, menghasilkan hingga 256 token secara paralel.

Model Mencapai 700-1000+ Token per Detik di Berbagai Konfigurasi Perangkat Keras

Dalam pengujian dengan RTX 5090, DiffusionGemma mengeluarkan sekitar 700 token per detik. Dengan satu akselerator AI Nvidia H100, DiffusionGemma dapat menghasilkan 1.000+ token per detik. Itu kira-kira empat kali lipat output dari model Gemma autoregresif berukuran serupa.

DiffusionGemma Menunjukkan Keunggulan dalam Pemecahan Tugas Non-Linear

Google mengatakan ini memberikan peningkatan yang terukur pada tugas non-linear seperti in-line editing, sekuensing molekuler, dan pemetaan grafik matematis. DiffusionGemma disetel untuk menyelesaikan teka-teki Sudoku, yang merupakan tugas yang sangat menantang untuk model AI autoregresif standar karena setiap token bergantung pada token-token di masa depan. Kemampuan DiffusionGemma untuk terus melakukan koreksi diri pada kumpulan token yang besar membuatnya lebih mudah.

FAQ

Apa itu DiffusionGemma dan bagaimana bedanya dengan model AI lain?

DiffusionGemma adalah model AI open baru dari Google DeepMind yang menggunakan arsitektur berbasis difusi untuk menghasilkan teks secara paralel, bukan berurutan. Berbeda dengan model autoregresif yang menghasilkan teks satu token pada satu waktu dari kiri ke kanan, DiffusionGemma memulai dengan placeholder token lalu menyempurnakannya dalam beberapa putaran, sebelum akhirnya menuntaskan seluruh blok teks secara bersamaan, mirip seperti model generasi gambar yang mengubah keadaan diam menjadi gambar yang koheren melalui denoising.

Seberapa cepat DiffusionGemma dibanding model Gemma lain?

DiffusionGemma menghasilkan sekitar 700 token per detik pada GPU RTX 5090 dan lebih dari 1.000 token per detik pada satu akselerator AI Nvidia H100. Ini mewakili sekitar empat kali kecepatan output model Gemma autoregresif berukuran serupa, sambil tetap muat dalam alokasi RAM 18GB pada GPU konsumen kelas atas berkat arsitektur Mixture of Experts dengan 26 miliar parameter total dan 3,8 miliar yang diaktifkan saat inferensi.

Jenis tugas apa yang dikerjakan DiffusionGemma dengan lebih baik?

Google menyatakan DiffusionGemma menawarkan peningkatan kinerja yang terukur pada tugas non-linear, termasuk in-line editing, sekuensing molekuler, pemetaan grafik matematis, dan penyelesaian teka-teki Sudoku. Kemampuan model untuk terus melakukan koreksi diri pada kumpulan token yang besar membuatnya sangat efektif untuk tugas yang tiap token bergantung pada token di masa depan—hal yang biasanya sangat menantang bagi model AI autoregresif standar.

Lihat Sumber

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

17jam yang lalu

Google Meluncurkan Gemini 3.5 Live Translate yang Mendukung 70+ Bahasa untuk Terjemahan Ucapan Secara Real-Time

20jam yang lalu

Microsoft yang Didukung D-Matrix Mulai Mengirim Chip AI Corsair Bulan Ini, Mengklaim Peningkatan Performa 2x-10x

06-09 15:22

Google Meluncurkan Gemini 3.5 Terjemahan Suara ke Suara Real-Time pada 9 Juni