
Google DeepMind hat am 10. Juni offiziell DiffusionGemma veröffentlicht und Open Source gestellt. Damit ist DiffusionGemma ein neues Mitglied der Open-Source-Familie von Gemma 4. DiffusionGemma nutzt eine diffusionbasierte Textgenerierungsarchitektur und kombiniert dies mit einem Mixture-of-Experts-(MoE)-Design. In allen bislang veröffentlichten öffentlichen Benchmark-Tests liegen die Werte von DiffusionGemma unter denen des Standard-Gemma-4.
Offizielle Geschwindigkeits-Testdaten und Hardware-Spezifikationen
Laut den von Google offiziell veröffentlichten Bestätigungszahlen:
Geschwindigkeitstests (Google offiziell, keine Drittanbieter-Verifizierung)
Nvidia RTX 5090 (Consumer-Klasse): ca. 700 Token/Sekunde
Nvidia H100 (Rechenzentrums-Klasse): über 1.000 Token/Sekunde
Selbstbewertetes Multiplikationsverhältnis: ca. das 4-fache eines Gemma-Modells derselben Größe in einem gleichgroßen Autoregressions-Setup
Architektur und Parameter
Gesamt-Parameterzahl: 26 Milliarden (26B)
Aktive Parameter bei der Inferenz: 3,8 Milliarden (3.8B)
VRAM-Anforderung: lässt sich auf High-End-Grafikkarten mit 18GB VRAM ausführen (quantisierte Versionen besonders)
Maximale Parallelisierung: bis zu 256 Tokens gleichzeitig
Lizenz: Apache 2.0
Generierungsmechanismus: Kernunterschiede zwischen Diffusion und Autoregression
Standardmäßige Autoregressionsmodelle generieren tokenweise sequenziell. Dabei hängt jedes Token von den Berechnungen des vorherigen Tokens ab; das Nadelöhr liegt in der Speicherbandbreite – für die Ausgabe jedes Tokens müssen die Modellgewichte einmal aus dem Speicher geladen werden.
Der Ablauf von DiffusionGemma ist anders: Zuerst werden Platzhalter-Tokens über den gesamten Ausgabeabschnitt verteilt, dann erfolgt in mehreren Durchläufen eine Rauschunterdrückung. In jedem Durchlauf werden alle Positionen der Tokens gleichzeitig aktualisiert, wodurch sich die Inhalte gegenseitig korrigieren, bis der gesamte Block zu der endgültigen Ausgabe konvergiert. Diese rechenintensive Parallelberechnung verlagert das Nadelöhr von der Speicherbandbreite hin zur GPU-Rechenleistung und nutzt die Parallelisierungsfähigkeit moderner GPUs stärker aus.
Google führt in der offiziellen Dokumentation Beispiele an, wonach DiffusionGemma bei nichtlinearen logischen Aufgaben wie dem Lösen von Sudoku strukturelle Vorteile hat. Denn bei solchen Aufgaben beinhalten die korrekten Lösungen häufig komplexe Abhängigkeiten zwischen Positionen; der lineare Generierungsansatz der Autoregression ist dafür von Natur aus eingeschränkt.
Benchmark-Ergebnisse: Alle veröffentlichten Testwerte liegen unter Gemma 4
Google bestätigt in den veröffentlichten Angaben, dass DiffusionGemma in allen veröffentlichten öffentlichen Benchmark-Tests schlechter abschneidet als das Standard-Gemma-4. Das bedeutet: Eine 4-fache Geschwindigkeitssteigerung geht mit einem systematischen Qualitätsrückgang bei der Generierung einher. Der BlockTempo-Artikel weist darauf hin, dass diese Abwägung je nach Anwendungsszenario ganz unterschiedliche Konsequenzen hat: In latenzsensitiven oder Szenarien mit sehr großen Batch-Ausgaben ist der Geschwindigkeitsvorteil tatsächlich relevant; bei Aufgaben mit hohen Qualitätsanforderungen bleibt das Standard-Gemma-4 aktuell die verlässlichere Wahl.
Google listet die für DiffusionGemma geeigneten Anwendungsfälle unter anderem so auf: In-Place-Editing (in-line editing), Generierung von Molekülsequenzen, mathematisches Zeichnen sowie nichtlineare Aufgaben, die komplexe logische Abhängigkeitsbeziehungen beinhalten.
Häufige Fragen
Was sind die grundlegenden Unterschiede zwischen DiffusionGemma und einem standardmäßigen autoregressiven Sprachmodell beim Generierungsmechanismus?
Standard-Autoregressionsmodelle generieren tokenweise linear; jedes Token hängt vom Ergebnis des vorherigen Tokens ab. DiffusionGemma hingegen legt zuerst Platzhalter-Tokens über die gesamte Ausgabezone, führt dann mehrere Rauschunterdrückungs-Durchläufe durch und lässt in jedem Durchlauf alle Positionen gleichzeitig aktualisieren. Abschließend wird der gesamte Textblock in einem einzigen Schritt ausgegeben; die Generierungslogik ist damit näher an der Art, wie Stable Diffusion Bilder erzeugt.
Auf welcher Hardware lässt sich DiffusionGemma lokal ausführen?
Laut der Erklärung von Google kann DiffusionGemma auf High-End-Grafikkarten mit 18GB VRAM ausgeführt werden, insbesondere gilt dies für die quantisierten Versionen. Die von Google durchgeführten Tests zeigen, dass eine Consumer-Variante wie die Nvidia RTX 5090 etwa 700 Tokens pro Sekunde erreichen kann. Die oben genannten Zahlen sind jedoch eine Selbstauswertung von Google und keine unabhängige Verifizierung durch Dritte.
Wurden die Geschwindigkeitszahlen von DiffusionGemma bereits durch Dritte verifiziert?
Noch nicht. BlockTempo hat in der Originalveröffentlichung ausdrücklich klargestellt, dass alle Geschwindigkeitszahlen aus den Tests von Google stammen und nicht durch Drittanbieter unabhängig verifiziert wurden. Je nach Szenario und je nach tatsächlicher Generierungslänge können die realen Multiplikationswerte von den offiziellen Angaben abweichen.