Google DeepMind veröffentlicht DiffusionGemma mit einem 4x-Geschwindigkeits-Boost für lokale KI

2026-06-10 19:39:38

Google DeepMind hat DiffusionGemma veröffentlicht, ein neues Mitglied der Gemma-4-Open-Model-Familie, das Text durch parallele Verarbeitung erzeugt – statt durch sequenzielle Token-Generierung. Das Modell erreicht schnellere und effizientere Performance auf lokaler Hardware, einschließlich Nvidia-DGX-Systemen und Consumer-Gaming-GPUs. Anders als autoregressive Modelle, die Text von links nach rechts jeweils Token für Token ausgeben, verwendet DiffusionGemma einen diffusionbasierten Ansatz ähnlich wie bei Bildgenerierungsmodellen: Es startet mit Platzhalter-Tokens und verfeinert sie in mehreren Durchläufen, um ganze Textblöcke gleichzeitig zu erzeugen. Dieser Architekturwechsel ermöglicht etwa die vierfache Ausgabegeschwindigkeit von ähnlich großen autoregressiven Gemma-Modellen, während es in die Speichergrenzen von High-End-Consumer-GPUs passt.

DiffusionGemma nutzt eine diffusionbasierte Architektur für parallele Textgenerierung

Die meisten KI-Modelle sind so ausgelegt, dass sie autoregressiv arbeiten und Text von links nach rechts Token für Token erzeugen. DiffusionGemma hat mehr Gemeinsamkeiten mit Bildgenerierungsmodellen: Diese starten mit statischem Material und entfernen dann Rauschen, um den gewünschten Inhalt zu erstellen. Das Modell verwendet dabei ein Feld aus Platzhalter-Tokens, das über die Leinwand mehrfach läuft, um wahrscheinliche Tokens zu generieren – und diese dann nutzt, um die Schätzung anderer Tokens zu verbessern. Am Ende des Prozesses finalisiert das Modell seine Token-Ausgaben in einem einzigen großen Block: der „denoised“-Textleinwand.

DiffusionGemma ist ein Mixture-of-Experts-(MoE)-Modell mit insgesamt 26 Milliarden Parametern, aber nur 3,8 Milliarden werden während der Inferenz aktiviert. Das bedeutet, dass es in die 18-GB-RAM-Aufteilung einer High-End-GPU passen sollte. Dieser Ansatz verlagert den Engpass von der Speicherbandbreite hin zur Rechenleistung und generiert bis zu 256 Tokens parallel.

Modell erreicht 700-1.000+ Tokens pro Sekunde über verschiedene Hardware-Konfigurationen

In Tests mit einer RTX 5090 gibt DiffusionGemma etwa 700 Tokens pro Sekunde aus. Mit einem einzelnen Nvidia-H100-KI-Accelerator kann DiffusionGemma 1.000+ Tokens pro Sekunde erzeugen. Das entspricht ungefähr dem Vierfachen der Ausgabe ähnlich großer autoregressiver Gemma-Modelle.

DiffusionGemma zeigt Vorteile bei der Lösung nichtlinearer Aufgaben

Google sagt, dass dies einen messbaren Vorteil bei nichtlinearen Aufgaben bietet – etwa Inline-Editing, molekulare Sequenzierung und mathematisches Graphing. DiffusionGemma wurde darauf abgestimmt, Sudoku-Puzzles zu lösen, was eine notorisch schwierige Aufgabe für Standard-autoregressive KI-Modelle ist, weil jedes Token von zukünftigen Tokens abhängt. Die Fähigkeit von DiffusionGemma, große Token-Mengen kontinuierlich selbst zu korrigieren, macht das leichter.

FAQ

Was ist DiffusionGemma und wie unterscheidet es sich von anderen KI-Modellen?

DiffusionGemma ist ein neues Open-KI-Modell von Google DeepMind, das eine diffusionbasierte Architektur nutzt, um Text parallel statt sequenziell zu erzeugen. Im Unterschied zu autoregressiven Modellen, die Text Token für Token von links nach rechts ausgeben, startet DiffusionGemma mit Platzhalter-Tokens und verfeinert sie über mehrere Durchläufe, wobei es ganze Textblöcke gleichzeitig finalisiert – ähnlich wie Bildgenerierungsmodelle statisches Material rauschenfrei machen, um kohärente Bilder zu erzeugen.

Wie schnell ist DiffusionGemma im Vergleich zu anderen Gemma-Modellen?

DiffusionGemma erzeugt etwa 700 Tokens pro Sekunde auf einer RTX 5090 GPU und über 1.000 Tokens pro Sekunde auf einem einzelnen Nvidia-H100-KI-Accelerator. Das entspricht ungefähr dem Vierfachen der Ausgabegeschwindigkeit ähnlich großer autoregressiver Gemma-Modelle – und passt dabei in die 18-GB-RAM-Zuteilung von High-End-Consumer-GPUs durch seine Mixture-of-Experts-Architektur mit 26 Milliarden Gesamtparametern und 3,8 Milliarden aktivierten Parametern während der Inferenz.

Für welche Arten von Aufgaben ist DiffusionGemma besonders geeignet?

Google zufolge bietet DiffusionGemma messbare Leistungsverbesserungen bei nichtlinearen Aufgaben, darunter Inline-Editing, molekulare Sequenzierung, mathematisches Graphing und das Lösen von Sudoku-Puzzles. Die Fähigkeit des Modells, große Token-Mengen kontinuierlich selbst zu korrigieren, macht es besonders effektiv für Aufgaben, bei denen jedes Token von zukünftigen Tokens abhängt – was für Standard-autoregressive KI-Modelle notorisch schwierig ist.

View Source

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.