Google DeepMind випускає DiffusionGemma з 4-кратним прискоренням для локального ШІ

2026-06-10 19:39:38

Google DeepMind випустила DiffusionGemma — новий учасник сімейства відкритих моделей Gemma 4, яка генерує текст через паралельну обробку, а не послідовну генерацію токенів. Модель досягає швидшої та ефективнішої роботи на локальному обладнанні, зокрема на системах Nvidia DGX і на ігрових GPU для споживачів. На відміну від автoрегресивних моделей, які формують текст зліва направо — по одному токену за раз, DiffusionGemma використовує дифузійний підхід, подібний до моделей генерації зображень: починаючи з токенів-заглушок і уточнюючи їх у кількох проходах, щоб одночасно отримати цілі блоки тексту. Така зміна архітектури дає змогу приблизно вчетверо збільшити швидкість виводу порівняно з автoрегресивними моделями Gemma подібного розміру, при цьому модель уміщується в обмеження пам’яті висококласних GPU для споживачів.

DiffusionGemma використовує дифузійну архітектуру для паралельної генерації тексту

Більшість моделей ШІ створені за автoрегресивним принципом: генерують текст зліва направо — по одному токену за раз. DiffusionGemma має більше спільного з моделями генерації зображень: вони починають зі статичного зображення, а потім прибирають шум, щоб отримати потрібний контент. Ця модель проводить по “полотну” поле токенів-заглушок кілька разів, щоб згенерувати найбільш імовірні токени, і використовуючи їх, покращує оцінку інших. Наприкінці процесу модель фіналізує свої токенові виходи одним великим блоком — “позбавленим шуму” текстовим полотном.

DiffusionGemma — це модель Mixture of Experts (MoE) із загальною кількістю 26 мільярдів параметрів, але під час інференсу активується лише 3,8 мільярда. Це означає, що вона має вміщатися в розподілену пам’ять 18 ГБ висококласного GPU. Такий підхід переносить вузьке місце з пропускної здатності пам’яті на обчислення: модель генерує до 256 токенів паралельно.

Модель досягає 700–1000+ токенів за секунду на різних конфігураціях обладнання

Під час тестування на RTX 5090 DiffusionGemma видає приблизно 700 токенів за секунду. За наявності одного AI-акселератора Nvidia H100 DiffusionGemma може генерувати понад 1 000 токенів за секунду. Це приблизно вчетверо більше за вихід автoрегресивних моделей Gemma подібного розміру.

DiffusionGemma демонструє переваги в розв’язанні нелінійних задач

Google каже, що це дає вимірюване підсилення в нелінійних задачах, зокрема в in-line editing, молекулярному секвенуванні та математичному графуванні. DiffusionGemma налаштували на розв’язання Sudoku — задачі, яка вважається особливо складною для стандартних автoрегресивних моделей ШІ, адже кожен токен залежить від майбутніх токенів. Здатність DiffusionGemma безперервно самокоригувати великі набори токенів робить цю задачу простішою.

FAQ

Що таке DiffusionGemma і чим вона відрізняється від інших моделей ШІ?

DiffusionGemma — це нова відкрита модель ШІ від Google DeepMind, яка використовує дифузійну архітектуру для паралельної генерації тексту замість послідовної. На відміну від автoрегресивних моделей, які генерують текст по одному токену за раз зліва направо, DiffusionGemma починає з токенів-заглушок і уточнює їх у кількох проходах, фіналізуючи цілі блоки тексту одночасно — подібно до того, як моделі генерації зображень прибирають шум зі статичного зображення, щоб отримати цілісні картини.

Як швидко працює DiffusionGemma порівняно з іншими моделями Gemma?

DiffusionGemma генерує близько 700 токенів за секунду на GPU RTX 5090 і понад 1 000 токенів за секунду на одному AI-акселераторі Nvidia H100. Це становить приблизно чотириразове прискорення виводу порівняно з автoрегресивними моделями Gemma подібного розміру, і при цьому модель уміщується в ліміт 18 ГБ RAM для висококласних GPU для споживачів завдяки архітектурі Mixture of Experts із 26 мільярдами загальних параметрів і 3,8 мільярдами активованими під час інференсу.

Які типи задач DiffusionGemma виконує краще?

Google зазначає, що DiffusionGemma дає вимірювані покращення продуктивності в нелінійних задачах, зокрема в in-line editing, молекулярному секвенуванні, математичному графуванні та розв’язанні Sudoku-пазлів. Здатність моделі безперервно самокоригувати великі набори токенів робить її особливо ефективною для задач, де кожен токен залежить від майбутніх токенів, що є вкрай складним для стандартних автoрегресивних моделей ШІ.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

06-10 03:41

Google запускає Gemini 3.5 Live Translate із підтримкою 70+ мов для перекладу мовлення в реальному часі

06-10 00:55

Підтримувана Microsoft D-Matrix цього місяця починає відвантаження AI-чипа Corsair, посилаючись на приріст продуктивності в 2-10 разів

06-09 15:22

Google запускає Gemini 3.5 для перекладу голос-у-голос у реальному часі 9 червня

Пов'язані статті

MNX залучає 6,4 млн доларів на pre-seed за $40M оцінкою для AI Futures Exchange

Ethan Brooks15год тому

Оновлення перекладу Google Gemini 3.5: кінець паузам під час синхронного усного перекладу — 70 мов у реальному часі

Market Whisper06-10 03:13