Google publie DiffusionGemma en open source, avec une vitesse multipliée par 4 mais une qualité inférieure à Gemma 4

2026-06-11 05:27:34

Google DeepMind a officiellement publié et open source DiffusionGemma le 10 juin, en tant que nouvel ajout à la famille open source de Gemma 4. DiffusionGemma utilise une architecture de génération de texte par diffusion, combinée à une conception de mélange d’experts (MoE). Dans tous les benchmarks publics déjà publiés, les scores de DiffusionGemma sont inférieurs à ceux du Gemma 4 standard.

Données officielles de test de vitesse et spécifications matérielles

D’après les chiffres de confirmation publiés par Google :

Test de vitesse (Google officiel, non vérifié par un tiers)

Nvidia RTX 5090 (niveau grand public) : environ 700 tokens/s

Nvidia H100 (niveau centre de données) : dépasse 1 000 tokens/s

Multiplicateur d’auto-évaluation : environ 4 fois celui du modèle Gemma en régression auto de taille équivalente

Architecture et paramètres

Nombre total de paramètres : 26 milliards (26B)

Nombre de paramètres actifs en inférence : 3,8 milliards (3.8B)

Besoins en VRAM : exécutable sur des cartes graphiques haut de gamme avec 18GB de VRAM (les versions quantifiées y sont particulièrement adaptées)

Traitement parallèle maximal : jusqu’à 256 tokens traités simultanément à la fois

Licence : Apache 2.0

Mécanisme de génération : différences fondamentales entre la diffusion et la régression auto

Les modèles de régression auto standard génèrent séquentiellement, token par token. Chaque token dépend du résultat du précédent ; le goulot d’étranglement vient de la bande passante mémoire — pour chaque token produit, il faut relire depuis la mémoire les poids du modèle.

Le processus de DiffusionGemma est différent : d’abord, on déploie des tokens de remplacement sur l’ensemble de la zone de sortie, puis on procède à plusieurs passes de débruitage. À chaque passe, tous les tokens dans toutes les positions sont mis à jour simultanément, se corrigeant mutuellement, jusqu’à ce que tout le contenu de la zone converge vers la sortie finale. Cette approche de calcul intensif et hautement parallèle fait passer le goulot d’étranglement de la bande passante mémoire à la puissance de calcul du GPU, en tirant davantage parti des capacités de parallélisation des GPU modernes.

Dans sa documentation officielle, Google illustre par exemple que DiffusionGemma présente des avantages structurels sur des tâches logiques non linéaires de type résolution de Sudoku, car ce type de tâches implique souvent des relations complexes de dépendance entre positions, ce qui limite naturellement les méthodes de génération linéaires de la régression auto.

Résultats des benchmarks : tous les scores publiés sont inférieurs à Gemma 4

Dans les données publiées, Google confirme que, sur tous les benchmarks publics déjà publiés, les scores de DiffusionGemma sont inférieurs à ceux du Gemma 4 standard. Cela signifie qu’un gain de vitesse de 4 fois s’accompagne d’une baisse systématique de la qualité de génération. L’article de BlockTempo indique que cette compensation a des implications très différentes selon les contextes d’application : pour les scénarios sensibles à la latence ou nécessitant de gros volumes de sortie, l’avantage en vitesse est réel ; pour les tâches où les exigences de qualité sont plus élevées, le Gemma 4 standard reste actuellement plus fiable.

Les cas d’usage de DiffusionGemma listés par Google incluent : l’édition en ligne (in-line editing), la génération de séquences moléculaires, les tracés mathématiques, ainsi que des tâches non linéaires impliquant des dépendances logiques complexes.

Questions fréquentes

Quelles différences fondamentales de mécanisme de génération existent entre DiffusionGemma et les modèles de langage de régression auto standard ?

Les modèles de régression auto standard génèrent de façon linéaire et token par token, chaque token dépendant du résultat du précédent. DiffusionGemma commence par remplir l’ensemble de la zone de sortie avec des tokens de remplacement, puis effectue plusieurs passes de débruitage, où toutes les positions sont mises à jour simultanément ; enfin, une sortie unique est générée pour l’ensemble du texte final, ce qui rapproche davantage la logique de génération de la manière dont Stable Diffusion génère des images.

Sur quel matériel DiffusionGemma peut-il tourner localement ?

D’après les explications de Google, DiffusionGemma peut s’exécuter sur des cartes graphiques haut de gamme disposant de 18GB de VRAM, et c’est particulièrement vrai pour les versions quantifiées. Les tests officiels de Google montrent qu’une Nvidia RTX 5090 grand public peut atteindre environ 700 tokens par seconde, mais les chiffres ci-dessus proviennent de l’auto-évaluation de Google, et ne constituent pas une vérification indépendante par un tiers.

Les chiffres de vitesse de DiffusionGemma ont-ils été vérifiés par un tiers ?

Pas encore. BlockTempo précise clairement dans son article que tous les chiffres des tests de vitesse proviennent des tests officiels de Google, sans vérification indépendante par des tiers ; selon les scénarios et les longueurs de génération, les multiplicateurs réels peuvent diverger des chiffres annoncés par Google.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

Il y a 3h

0G Labs annonce un partenariat avec MiniMax le 11 juin pour déployer des modèles d’IA on-chain

Il y a 7h

Google open-source le modèle DiffusionGemma : plus de 1 000 tokens par seconde sur H100, avec un gain de vitesse x4

06-10 03:41

Google lance Gemini 3.5 Live Translate, qui prend en charge plus de 70 langues pour la traduction de la parole en temps réel