Google Membuka-Sumberkan Model DiffusionGemma: 1000+ Token per Detik di H100, Lonjakan Kecepatan 4x

Menurut pemantauan Beating, Google merilis model text generation open-source bernama DiffusionGemma, yang menggunakan mekanisme berbasis difusi untuk menghasilkan teks dalam blok paralel, bukan secara berurutan token-per-token. Model 26B parameter hanya mengaktifkan 3,8B parameter per forward pass dalam arsitektur mixture-of-experts, mencapai peningkatan kecepatan 4x pada inferensi GPU lokal.

Pada satu GPU NVIDIA H100, DiffusionGemma mencapai lebih dari 1000 token per detik, sementara RTX 5090 kelas konsumen melampaui 700 token per detik. Setelah kuantisasi floating-point 4-bit, model membutuhkan VRAM di bawah 18GB. Bobot DiffusionGemma kini diopen-source di Hugging Face dan didukung oleh MLX, vLLM, Unsloth, serta NVIDIA NeMo.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar