Google выпустила с открытым исходным кодом DiffusionGemma: скорость в 4 раза выше, но качество уступает Gemma 4

DiffusionGemma

Google DeepMind 10 июня официально опубликовала и открыла исходный код DiffusionGemma — как нового участника открытого семейства Gemma 4. DiffusionGemma использует диффузионную архитектуру для текстовой генерации, сочетая дизайн с Mixture of Experts (MoE). Во всех уже опубликованных публичных тестах показатели DiffusionGemma ниже, чем у стандартной Gemma 4.

Официальные данные по скоростным тестам и спецификации оборудования

Согласно опубликованным Google официальным подтверждённым цифрам:

Скоростной тест (официально от Google, без верификации третьими лицами)

Nvidia RTX 5090 (уровня потребительских устройств): около 700 токенов/сек

Nvidia H100 (уровня дата-центров): более 1 000 токенов/сек

Самооценочный множитель: примерно в 4 раза относительно автрорегрессионной модели того же размера

Архитектура и параметры

Общее число параметров: 26 миллиардов (26B)

Число активных параметров при инференсе: 3,8 миллиарда (3.8B)

Требования к VRAM: можно запускать на 18GB VRAM на продвинутых видеокартах (особенно в случае квантованной версии)

Максимальная параллельная обработка: за раз максимум 256 токенов одновременно

Лицензия: Apache 2.0

Механизм генерации: ключевые различия между диффузией и автрорегрессией

Стандартные автрорегрессионные модели генерируют последовательно — по одному токену за раз. Каждый токен зависит от вычислений предыдущего, а узкое место находится в пропускной способности памяти: при выводе каждого токена требуется один раз читать веса модели из памяти.

У DiffusionGemma процесс другой: сначала поверх всей области вывода раскладываются позиционные токены-заглушки, затем выполняются несколько раундов денойза — каждый раунд позволяет всем позициям одновременно обновляться с взаимными исправлениями, пока содержимое целиком не сойдётся к финальному выводу. Такой вычислительно-интенсивный параллельный подход переносит узкое место с пропускной способности памяти на GPU-вычисления, что позволяет полнее задействовать параллельные возможности современных GPU.

Google в официальной документации приводит пример: DiffusionGemma демонстрирует структурное преимущество в нелинейных задачах логики, например в задачах типа судоку. Это связано с тем, что в подобных задачах корректный ответ часто включает сложные зависимости между позициями, а линейный способ генерации в автрорегрессии изначально ограничен.

Результаты бенчмарков: все опубликованные тестовые оценки ниже Gemma 4

Google в материалах релиза подтверждает, что во всех уже опубликованных публичных бенчмарках оценка DiffusionGemma ниже, чем у стандартной Gemma 4. Это означает, что четырёхкратное ускорение сопровождается систематическим снижением качества генерации. В статье BlockTempo указано, что такие компромиссы имеют разный смысл для различных сценариев применения: для сценариев, где критичны задержки или требуется генерация большими партиями, преимущество по скорости является практическим; для задач с более высокими требованиями к качеству стандартная Gemma 4 пока остаётся более надёжной.

Google официально перечисляет подходящие сценарии для DiffusionGemma, включая: inline editing (встроенное редактирование), генерацию молекулярных последовательностей, математическое построение изображений, а также нелинейные задачи с нелинейными логическими зависимостями.

Частые вопросы

Чем DiffusionGemma и стандартные автрорегрессионные языковые модели принципиально отличаются по механизму генерации?

Стандартные автрорегрессионные модели генерируют последовательно по одному токену; каждый токен зависит от результата предыдущего. DiffusionGemma сначала заполняет всю область вывода позиционными токенами-заглушками, выполняет несколько раундов денойза, в каждом раунде обновляет все позиции одновременно, а затем в один финальный проход выводит всю заготовку целиком — логика генерации ближе к тому, как Stable Diffusion генерирует изображения.

На каком железе DiffusionGemma можно запускать локально?

Согласно объяснению Google, DiffusionGemma можно запускать на видеокартах высокого класса с 18GB VRAM, а квантованные версии — особенно. По тестам Google, потребительская Nvidia RTX 5090 достигает примерно 700 токенов в секунду, но приведённые цифры являются самооценкой Google и не подтверждены независимой проверкой третьими лицами.

Проверены ли цифры скорости DiffusionGemma независимой третьей стороной?

Пока нет. BlockTempo в явном виде пишет, что все цифры скорости взяты из тестов, проведённых самим Google, без независимой верификации третьими лицами; в реальных условиях — при разных сценариях и разной длине генерации — фактический множитель может отличаться от официальных цифр.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев