
A Google DeepMind publicou e lançou oficialmente como código aberto o DiffusionGemma no dia 10 de junho, como o mais recente membro da família open-source do Gemma 4. O DiffusionGemma adota uma arquitetura de geração de texto por difusão, combinada com um design de Mistura de Especialistas (MoE). Em todas as benchmarks públicas divulgadas até agora, as pontuações do DiffusionGemma ficam abaixo das do Gemma 4 padrão.
Dados oficiais de testes de velocidade e especificações de hardware
De acordo com os números de confirmação publicados pela Google:
Testes de velocidade (oficiais da Google, não validados por terceiros)
Nvidia RTX 5090 (nível consumidor): cerca de 700 tokens/segundo
Nvidia H100 (nível centro de dados): ultrapassa 1.000 tokens/segundo
Multiplicador de autoavaliação: cerca de 4x face a modelos Gemma de regressão automática do mesmo tamanho
Arquitetura e parâmetros
Número total de parâmetros: 26 mil milhões (26B)
Parâmetros ativos na inferência: 3,8 mil milhões (3.8B)
Necessidades de VRAM: pode ser executado em GPUs de gama alta com 18GB de VRAM (especialmente nas versões quantificadas)
Processamento paralelo máximo: até 256 tokens em simultâneo por vez
Licença: Apache 2.0
Mecanismo de geração: a diferença central entre difusão e regressão automática
Os modelos padrão de regressão automática geram palavra por palavra, de forma sequencial; cada token depende do resultado do token anterior, e o gargalo está na largura de banda da memória — por cada token gerado, é necessário carregar os pesos do modelo a partir da memória.
O processo do DiffusionGemma é diferente: primeiro, coloca tokens de posição por toda a área de saída, realiza múltiplas rondas de remoção de ruído e, em cada ronda, todos os tokens em todas as posições são atualizados em simultâneo, corrigindo-se mutuamente, até o conteúdo completo convergir para a saída final. Esta abordagem intensiva em capacidade de computação, baseada em paralelização, faz com que o gargalo mude de largura de banda de memória para capacidade de computação da GPU, aproveitando melhor as capacidades de paralelismo das GPUs modernas.
Nos documentos oficiais, a Google dá exemplos de que o DiffusionGemma tem vantagens estruturais em tarefas lógicas não lineares do tipo “resolver Sudoku”, porque este tipo de tarefas envolve frequentemente relações complexas de dependência entre posições, limitações que a geração linear de regressão automática enfrenta naturalmente.
Resultados de benchmarks: todas as pontuações divulgadas ficam abaixo do Gemma 4
Nas informações publicadas no lançamento, a Google confirma que, em todos os testes de benchmarks públicos já divulgados, as pontuações do DiffusionGemma são inferiores às do Gemma 4 padrão. Isto significa que o aumento de velocidade de 4x vem acompanhado de uma descida sistemática da qualidade de geração. Um artigo da BlockTempo refere que esta troca tem implicações muito diferentes consoante o cenário de aplicação: em casos sensíveis à latência ou que exigem grandes volumes de saída, a vantagem de velocidade é efetivamente relevante; em tarefas com exigências de qualidade mais elevadas, o Gemma 4 padrão continua a ser mais fiável.
Os cenários de aplicação para os quais a Google enumera o DiffusionGemma incluem: edição inline (in-line editing), geração de sequências de moléculas, desenho matemático e tarefas não lineares que envolvem relações complexas de dependência lógica.
Perguntas frequentes
Qual é a diferença essencial no mecanismo de geração entre o DiffusionGemma e os modelos de linguagem de regressão automática padrão?
Os modelos de regressão automática padrão geram de forma sequencial e linear token a token, em que cada token depende do resultado do anterior. O DiffusionGemma primeiro preenche toda a área de saída com tokens de posição, realiza múltiplas rondas de remoção de ruído, e em cada ronda atualiza todas as posições em simultâneo; no fim, é emitida uma única saída com a versão final completa, tornando a lógica de geração mais semelhante ao modo como o Stable Diffusion gera imagens.
Em que hardware é possível correr o DiffusionGemma localmente?
De acordo com as explicações da Google, o DiffusionGemma pode ser executado em placas gráficas de gama alta com 18GB de VRAM, especialmente nas versões quantificadas. Nos testes da Google, a Nvidia RTX 5090 de nível consumidor pode chegar a cerca de 700 tokens por segundo, mas os números acima são autoavaliações da Google, não validações independentes por terceiros.
Os números de velocidade do DiffusionGemma já passaram por validação de terceiros?
Ainda não. A BlockTempo afirma de forma explícita que todos os números de testes de velocidade provêm dos testes oficiais da Google, não existindo validação independente por terceiros; em cenários diferentes e com diferentes comprimentos de geração, as taxas reais podem diferir dos números oficiais.