Google випустила відкритий код DiffusionGemma: швидкість у 4 рази вища, але якість поступається Gemma 4

2026-06-11 05:27:34

Google DeepMind 10 червня офіційно опублікувала та відкрила код DiffusionGemma як нового учасника відкритої сім’ї Gemma 4. DiffusionGemma використовує дифузійну архітектуру для генерації тексту, поєднуючи дизайн із моделлю суміші експертів (MoE). У всіх уже опублікованих публічних тестах-еталонах бали DiffusionGemma нижчі за стандартну Gemma 4.

Офіційні дані швидкісних тестів і апаратні специфікації

Згідно з офіційно оприлюдненими Google підтверджувальними цифрами:

Швидкісний тест (Google офіційно, без перевірки третьою стороною)

Nvidia RTX 5090 (споживчого класу): близько 700 token/сек

Nvidia H100 (центрального/датацентрового класу): понад 1,000 token/сек

Самооцінюваний множник: близько 4 рази відносно саморекурентної (self-regressive) моделі того самого розміру

Архітектура та параметри

Загальна кількість параметрів: 26 млрд (26B)

Активні параметри під час інференсу: 3,8 млрд (3.8B)

Потреби в VRAM: можна запускати на топових відеокартах із 18GB VRAM (зокрема квантизована версія)

Максимальна паралельна обробка: до 256 token одночасно

Ліцензія: Apache 2.0

Механізм генерації: ключові відмінності між дифузією та автогенерацією

Стандартні саморекурентні моделі генерують послідовно, по одному token за раз: кожен token залежить від обчислення попереднього, а вузьке місце — пропускна здатність пам’яті. За кожного виводу token потрібно щоразу зчитувати ваги моделі з пам’яті.

Процес DiffusionGemma інший: спочатку на всій області майбутнього виводу розкладають placeholder token, потім проводять кілька проходів з усунення шуму. Під час кожного проходу всі позиції token одночасно оновлюються та коригують одна одну, доки весь блок не збіжиться до фінального виводу. Такий обчислювально-інтенсивний паралельний підхід зміщує вузьке місце з пропускної здатності пам’яті на обчислювальну потужність GPU, що дозволяє краще використати паралельність сучасних GPU.

У документації Google наводить приклад, що DiffusionGemma має структурну перевагу в нелінійних логічних задачах на кшталт розв’язування судоку, оскільки в таких задачах правильні відповіді часто включають складні взаємозалежності між позиціями. Саморекурентний лінійний спосіб генерації за своєю природою обмежений.

Результати еталонних тестів: усі опубліковані оцінки нижчі за Gemma 4

Google у своїх матеріалах підтвердив, що у всіх опублікованих публічних тестах-еталонах бали DiffusionGemma нижчі за стандартну Gemma 4. Це означає, що прискорення у 4 рази супроводжується систематичним зниженням якості генерації. У статті BlockTempo зазначено, що така домовленість має різний зміст для різних сценаріїв: у випадках, де важлива затримка або потрібні великі обсяги виводу, перевага швидкості є реальною; для задач із підвищеними вимогами до якості стандартна Gemma 4 наразі залишається надійнішою.

Google офіційно перерахував сценарії, де DiffusionGemma підходить найкраще: in-line editing, генерація молекулярних послідовностей, математичні діаграми та нелінійні задачі, що включають складні логічні залежності.

Поширені запитання

Чим принципово відрізняється механізм генерації DiffusionGemma від стандартних саморекурентних мовних моделей?

Стандартні саморекурентні моделі генерують послідовно й лінійно, де кожен token залежить від результату попереднього. DiffusionGemma спочатку розкладає на всю область виводу placeholder token, проводить кілька проходів усунення шуму, під час кожного проходу одночасно оновлює всі позиції, а на завершення одним разом виводить весь відредагований текст; логіка генерації більше схожа на спосіб, яким Stable Diffusion генерує зображення.

На якому обладнанні DiffusionGemma можна запускати локально?

Згідно з поясненням Google, DiffusionGemma можна запускати на висококласних відеокартах із 18GB VRAM, а для квантизованої версії це особливо так. Офіційні тести Google показують, що споживчий Nvidia RTX 5090 може досягати близько 700 token за секунду, але наведені цифри є автооцінкою Google, а не незалежною верифікацією третьою стороною.

Чи пройшли швидкісні цифри DiffusionGemma сторонню верифікацію?

Ще ні. BlockTempo прямо зазначає, що всі числа швидкісних тестів походять із офіційних тестів Google, без незалежної перевірки третьою стороною; у різних сценаріях і при різній довжині генерації фактичні множники можуть відрізнятися від офіційних цифр.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

3год тому

0G Labs оголошує партнерство з MiniMax 11 червня, щоб вивести моделі AI на блокчейн

7год тому

Google відкриває вихідний код моделі DiffusionGemma: понад 1 тис. токенів на секунду на H100, приріст швидкості в 4 рази

06-10 03:41

Google запускає Gemini 3.5 Live Translate із підтримкою 70+ мов для перекладу мовлення в реальному часі

Пов'язані статті

Google DeepMind випускає DiffusionGemma з 4-кратним прискоренням для локального ШІ

Oliver Grant12год тому

Claude Fable 5 додала механізм детектування дистиляції, рівень спрацювання нижчий за 5%

Market Whisper06-10 03:49