A Google lança o DiffusionGemma de código aberto, com uma velocidade 4 vezes superior, mas com qualidade inferior à Gemma 4

2026-06-11 05:27:34

A Google DeepMind publicou e lançou oficialmente como código aberto o DiffusionGemma no dia 10 de junho, como o mais recente membro da família open-source do Gemma 4. O DiffusionGemma adota uma arquitetura de geração de texto por difusão, combinada com um design de Mistura de Especialistas (MoE). Em todas as benchmarks públicas divulgadas até agora, as pontuações do DiffusionGemma ficam abaixo das do Gemma 4 padrão.

Dados oficiais de testes de velocidade e especificações de hardware

De acordo com os números de confirmação publicados pela Google:

Testes de velocidade (oficiais da Google, não validados por terceiros)

Nvidia RTX 5090 (nível consumidor): cerca de 700 tokens/segundo

Nvidia H100 (nível centro de dados): ultrapassa 1.000 tokens/segundo

Multiplicador de autoavaliação: cerca de 4x face a modelos Gemma de regressão automática do mesmo tamanho

Arquitetura e parâmetros

Número total de parâmetros: 26 mil milhões (26B)

Parâmetros ativos na inferência: 3,8 mil milhões (3.8B)

Necessidades de VRAM: pode ser executado em GPUs de gama alta com 18GB de VRAM (especialmente nas versões quantificadas)

Processamento paralelo máximo: até 256 tokens em simultâneo por vez

Licença: Apache 2.0

Mecanismo de geração: a diferença central entre difusão e regressão automática

Os modelos padrão de regressão automática geram palavra por palavra, de forma sequencial; cada token depende do resultado do token anterior, e o gargalo está na largura de banda da memória — por cada token gerado, é necessário carregar os pesos do modelo a partir da memória.

O processo do DiffusionGemma é diferente: primeiro, coloca tokens de posição por toda a área de saída, realiza múltiplas rondas de remoção de ruído e, em cada ronda, todos os tokens em todas as posições são atualizados em simultâneo, corrigindo-se mutuamente, até o conteúdo completo convergir para a saída final. Esta abordagem intensiva em capacidade de computação, baseada em paralelização, faz com que o gargalo mude de largura de banda de memória para capacidade de computação da GPU, aproveitando melhor as capacidades de paralelismo das GPUs modernas.

Nos documentos oficiais, a Google dá exemplos de que o DiffusionGemma tem vantagens estruturais em tarefas lógicas não lineares do tipo “resolver Sudoku”, porque este tipo de tarefas envolve frequentemente relações complexas de dependência entre posições, limitações que a geração linear de regressão automática enfrenta naturalmente.

Resultados de benchmarks: todas as pontuações divulgadas ficam abaixo do Gemma 4

Nas informações publicadas no lançamento, a Google confirma que, em todos os testes de benchmarks públicos já divulgados, as pontuações do DiffusionGemma são inferiores às do Gemma 4 padrão. Isto significa que o aumento de velocidade de 4x vem acompanhado de uma descida sistemática da qualidade de geração. Um artigo da BlockTempo refere que esta troca tem implicações muito diferentes consoante o cenário de aplicação: em casos sensíveis à latência ou que exigem grandes volumes de saída, a vantagem de velocidade é efetivamente relevante; em tarefas com exigências de qualidade mais elevadas, o Gemma 4 padrão continua a ser mais fiável.

Os cenários de aplicação para os quais a Google enumera o DiffusionGemma incluem: edição inline (in-line editing), geração de sequências de moléculas, desenho matemático e tarefas não lineares que envolvem relações complexas de dependência lógica.

Perguntas frequentes

Qual é a diferença essencial no mecanismo de geração entre o DiffusionGemma e os modelos de linguagem de regressão automática padrão?

Os modelos de regressão automática padrão geram de forma sequencial e linear token a token, em que cada token depende do resultado do anterior. O DiffusionGemma primeiro preenche toda a área de saída com tokens de posição, realiza múltiplas rondas de remoção de ruído, e em cada ronda atualiza todas as posições em simultâneo; no fim, é emitida uma única saída com a versão final completa, tornando a lógica de geração mais semelhante ao modo como o Stable Diffusion gera imagens.

Em que hardware é possível correr o DiffusionGemma localmente?

De acordo com as explicações da Google, o DiffusionGemma pode ser executado em placas gráficas de gama alta com 18GB de VRAM, especialmente nas versões quantificadas. Nos testes da Google, a Nvidia RTX 5090 de nível consumidor pode chegar a cerca de 700 tokens por segundo, mas os números acima são autoavaliações da Google, não validações independentes por terceiros.

Os números de velocidade do DiffusionGemma já passaram por validação de terceiros?

Ainda não. A BlockTempo afirma de forma explícita que todos os números de testes de velocidade provêm dos testes oficiais da Google, não existindo validação independente por terceiros; em cenários diferentes e com diferentes comprimentos de geração, as taxas reais podem diferir dos números oficiais.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

3h atrás

0G Labs anuncia parceria com a MiniMax a 11 de junho para colocar modelos de IA on-chain

7h atrás

A Google disponibiliza em código aberto o modelo DiffusionGemma: mais de 1000 tokens por segundo no H100, aumento de velocidade 4x

06-10 03:41

A Google lança o Gemini 3.5 com tradução em direto, suportando mais de 70 idiomas para tradução em tempo real de fala

A Google DeepMind Lança o DiffusionGemma com um Impulso de Velocidade 4x para IA Local

Oliver Grant12h atrás

Claude Fable 5 adiciona um mecanismo de deteção de destilação, com uma taxa de ativação inferior a 5%

Market Whisper06-10 03:49

O Google Gemini 3,5 melhora a tradução, chega ao fim das pausas na interpretação em tempo real em 70 línguas

Market Whisper06-10 03:13

A Anthropic lança o Claude Fable 5, com estreia de um classificador de IA que desativa automaticamente as proteções contra abusos

Market Whisper06-10 01:08

A Google anuncia a tradução em tempo real do Gemini 3.5 para voz em mais de 70 línguas

Oliver Grant06-09 19:09

Comentar

0/400

Nenhum comentário