Згідно з оголошенням NVIDIA у офіційному блозі від 28 квітня (автор Kari Briski), NVIDIA представила Nemotron 3 Nano Omni — відкриту багатомодальну модель, яка об’єднує візуальні, аудіо та мовні можливості в одній моделі, з метою надати для систем AI agent нижчу затримку та меншу вартість “рівня сприйняття”.
Ключові специфікації: 30B-A3B MoE、256K контекст、9 разів пропускна здатність、здобула 6 місць №1 у рейтингах
Ключова архітектура:
30B-A3B hybrid mixture-of-experts (загальні параметри 30B, активні 3B)
Інтеграція Conv3D та EVS кодування
Довжина 256K контексту
Вхід: текст, зображення, аудіо, відео, документи, діаграми, GUI-екрани
Вихід: текст
Сигнали продуктивності: у порівнянні з іншими відкритими omni-моделями за однакової інтерактивності забезпечує 9 разів пропускну здатність; у трьох категоріях — інтелектуальні документи, розуміння відео, розуміння аудіо — здобула перше місце в усіх 6 базових рейтингах (в оголошенні NVIDIA не наведено конкретних балів; воно спрямовує читачів до розробницького блогу, щоб переглянути детальні дані).
NVIDIA позиціонує Nemotron 3 Nano Omni як “очі та вуха” в агентних системах; вона може виконувати розподіл робіт разом із моделями того ж сімейства, такими як Nemotron 3 Super (високочастотне виконання) та Nemotron 3 Ultra (складне планування), а також може взаємодіяти з хмарними моделями сторонніх розробників. Три типові сценарії використання агентів:
Агент для комп’ютерного використання (Computer Use Agent): власне візуальне міркування з роздільною здатністю 1920×1080
Інтелект документів: міркування з вхідними даними, що охоплюють діаграми/таблиці/скріншоти та змішені медіа
Розуміння аудіо/відео: об’єднання мовлення, зображення й записів в один ланцюжок міркування
Склад компаній, що приєдналися: Hon Hai, Palantir — у списку, H Company CEO — з іменним підтвердженням
У оголошенні NVIDIA чітко розмежовано “виробниче впровадження” та “перебуває на оцінюванні”:
Вже виробничо впроваджено: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler
Перебуває на оцінюванні: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr тощо
CEO H Company Gautier Cloix у оголошенні з іменним підтвердженням сказав: «To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.» Переклад: «Щоб створювати корисні агенти, не можна чекати секунди, поки модель інтерпретує екран. Спираючись на Nemotron 3 Nano Omni, наші агенти можуть швидко інтерпретувати повні HD-записи екрана — те, що раніше було не практично здійсненним.»
Стратегія відкритого коду та розгортання: weights / datasets / методи навчання — повністю відкриті
Під час випуску NVIDIA оприлюднила одночасно:
вагові коефіцієнти моделі
навчальні набори даних
техніки/методології навчання
Конвеєр розгортання охоплює три рівні:
Локальні робочі станції: NVIDIA DGX Spark, DGX Station
NIM мікросервіси: build.nvidia.com
Платформи сторонніх розробників: Hugging Face, OpenRouter, а також через 25+ NVIDIA Cloud Partners, платформи для інференсу та постачальників хмарних сервісів
Індивідуальні інструменти використовують NVIDIA NeMo. За минулий рік сімейство Nemotron 3 (Nano/Super/Ultra) на Hugging Face накопичило понад 50,000,000 завантажень; цього разу Omni поширює можливості цього сімейства на багатомодальність та агентну сферу.
Ця стаття NVIDIA, в якій висвітлено відкриття коду Nemotron 3 Nano Omni як багатомодальної моделі, вперше з’являється на 鏈新聞 ABMedia.