อ้างอิงจากการติดตามของ Beating ทาง Google ได้ปล่อยโมเดลการสร้างข้อความโอเพนซอร์สชื่อ DiffusionGemma ซึ่งใช้กลไกแบบ diffusion ในการสร้างข้อความเป็นบล็อกแบบขนาน แทนการสร้างทีละโทเค็นแบบต่อเนื่อง รุ่นขนาด 26B พารามิเตอร์จะเปิดใช้งานเพียง 3.8B พารามิเตอร์ต่อหนึ่งรอบการประมวลผล (forward pass) ภายใต้สถาปัตยกรรม mixture-of-experts ทำให้ได้ความเร็วเพิ่มขึ้น 4 เท่าในการอนุมานบน GPU ภายในเครื่อง
บน GPU เดียว NVIDIA H100 DiffusionGemma ทำความเร็วได้มากกว่า 1000 โทเค็นต่อวินาที ขณะที่ RTX 5090 ระดับผู้บริโภคทำได้มากกว่า 700 โทเค็นต่อวินาที หลังจากการควอนไทซ์แบบทศนิยม 4 บิต โมเดลใช้ VRAM ต่ำกว่า 18GB น้ำหนักของ DiffusionGemma เปิดเผยให้ใช้งานแบบโอเพนซอร์สแล้วบน Hugging Face และรองรับโดย MLX, vLLM, Unsloth และ NVIDIA NeMo