Google открыла исходный код модели DiffusionGemma: более 1000 токенов в секунду на H100, ускорение в 4 раза

Согласно мониторингу Beating, Google выпустила open-source текстовую модель генерации под названием DiffusionGemma, которая использует механизм диффузии для генерации текста параллельными блоками, а не токен-за-токеном последовательно. Модель с 26B параметрами активирует только 3,8B параметра за один прямой проход в рамках архитектуры mixture-of-experts, обеспечивая 4-кратное ускорение локального вывода на GPU.

На одной NVIDIA H100 DiffusionGemma достигает более 1000 токенов в секунду, тогда как потребительская RTX 5090 превышает 700 токенов в секунду. После квантования в 4-бит с плавающей запятой модели требуется менее 18GB VRAM. Веса DiffusionGemma теперь открыты для сообщества на Hugging Face и поддерживаются MLX, vLLM, Unsloth и NVIDIA NeMo.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев