根據 Beating 監測,Google 發布了一款名為 DiffusionGemma 的開源文字生成模型,使用基於擴散的機制以平行區塊生成文字,而非逐 token 的序列方式。這款 26B 參數模型在混合專家架構下,每次 forward pass 僅啟用 3.8B 參數,實現本地 GPU 推論 4 倍的速度提升。
在單顆 NVIDIA H100 GPU 上,DiffusionGemma 的速度超過每秒 1000 tokens;而消費級 RTX 5090 則超過每秒 700 tokens。經過 4-bit 浮點量化後,該模型所需 VRAM 少於 18GB。DiffusionGemma 權重現已在 Hugging Face 開源,並獲得 MLX、vLLM、Unsloth 與 NVIDIA NeMo 支援。