Google відкриває вихідний код моделі DiffusionGemma: понад 1 тис. токенів на секунду на H100, приріст швидкості в 4 рази

За даними моніторингу Beating, Google випустив open-source текстову модель генерації під назвою DiffusionGemma, яка використовує механізм дифузії для генерації тексту паралельними блоками, а не послідовно токен-за-токеном. Модель із 26 млрд параметрів активує лише 3,8 млрд параметрів за один прямий прохід у межах архітектури mixture-of-experts, досягаючи 4-кратного прискорення локального GPU-виведення.

На одному GPU NVIDIA H100 DiffusionGemma досягає понад 1000 токенів за секунду, тоді як споживчий RTX 5090 перевищує 700 токенів за секунду. Після 4-бітового квантування з плаваючою комою модель потребує менше ніж 18ГБ VRAM. Ваги DiffusionGemma вже відкриті в GitHub Hugging Face та підтримуються MLX, vLLM, Unsloth і NVIDIA NeMo.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів