Google 開源 DiffusionGemma 模型:在 H100 上每秒 1000+ 個 Token,4 倍速度提升

根據 Beating 監測,Google 發布了一款名為 DiffusionGemma 的開源文字生成模型,使用基於擴散的機制以平行區塊生成文字,而非逐 token 的序列方式。這款 26B 參數模型在混合專家架構下,每次 forward pass 僅啟用 3.8B 參數,實現本地 GPU 推論 4 倍的速度提升。

在單顆 NVIDIA H100 GPU 上,DiffusionGemma 的速度超過每秒 1000 tokens;而消費級 RTX 5090 則超過每秒 700 tokens。經過 4-bit 浮點量化後,該模型所需 VRAM 少於 18GB。DiffusionGemma 權重現已在 Hugging Face 開源,並獲得 MLX、vLLM、Unsloth 與 NVIDIA NeMo 支援。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆