Beatingのモニタリングによると、GoogleはDiffusionGemmaと呼ばれるオープンソースのテキスト生成モデルを公開しました。このモデルは、トークンごとの逐次処理ではなく、拡散ベースの仕組みによってテキストを並列のブロックで生成します。26Bパラメータのモデルは、ミクスチャ・オブ・エキスパート構成のもとで、1回のフォワードパスにつき3.8Bパラメータのみを有効化し、ローカルGPU推論で4倍の速度向上を実現しています。
単一のNVIDIA H100 GPU上で、DiffusionGemmaは毎秒1000トークン超に到達し、コンシューマ向けのRTX 5090は毎秒700トークン超を上回ります。4ビット浮動小数点量子化の後、このモデルはVRAMが18GB未満で済みます。DiffusionGemmaの重みは現在Hugging Faceでオープンソース化されており、MLX、vLLM、Unsloth、NVIDIA NeMoにも対応しています。