NVIDIA lanza Nemotron 3 Nano Omni, código abierto multimodal

De acuerdo con el anuncio del 28 de abril del blog oficial de NVIDIA (autor: Kari Briski), NVIDIA presentó Nemotron 3 Nano Omni, un modelo multimodal de código abierto que integra capacidades de visión, voz y lenguaje en un único modelo, con el objetivo de proporcionar a los sistemas de agentes de IA una capa de “percepción” con menor latencia y menor costo.

Especificaciones clave: 30B-A3B MoE, contexto de 256K, 9 veces de rendimiento, y liderar 6 rankings

Arquitectura clave:

30B-A3B hybrid mixture-of-experts (parámetros totales 30B, activados 3B)

Integración de codificación Conv3D y EVS

Longitud de contexto 256K

Entrada: texto, imágenes, audio, videos, documentos, tablas, pantallas GUI

Salida: texto

Señales de desempeño: 9 veces de rendimiento en interactividad equivalente frente a otros modelos omni de código abierto; ocupó el primer lugar en 6 rankings de referencia en tres grandes categorías: inteligencia de documentos, comprensión de video y comprensión de audio (en el anuncio de NVIDIA no se listan puntuaciones específicas, y se guía a los lectores a ir al blog de desarrolladores para ver los detalles).

NVIDIA posiciona Nemotron 3 Nano Omni como “los ojos y los oídos” dentro de los sistemas de agentes, y puede trabajar en conjunto con otros modelos de la misma familia como Nemotron 3 Super (ejecución de alta frecuencia) y Nemotron 3 Ultra (planificación compleja). También puede interoperar con modelos en la nube de terceros. Tres escenarios típicos de aplicación de agentes:

Agente de uso de computadora (Computer Use Agent): razonamiento visual nativo con resolución 1920×1080

Inteligencia de documentos: inferencia con entradas multimodales que combinan gráficos, tablas, capturas y medios mixtos

Comprensión de audio/video: integrar voz, imágenes y registros en una única cadena de inferencia

Repertorio de adopción: entra Hon Hai, Palantir, y el CEO de H Company hace una declaración con nombre propio

En el anuncio, NVIDIA distingue explícitamente entre “adopción para producción” y “en evaluación”:

Adopción para producción: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler

En evaluación: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, entre otros

El CEO de H Company, Gautier Cloix, hace una declaración con nombre propio en el anuncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Traducción: “Para construir agentes útiles, no puedes esperar segundos para que un modelo interprete una pantalla. Al basarnos en Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla completas en HD, algo que antes no era práctico.”

Estrategia de código abierto y despliegue: pesos / conjuntos de datos / métodos de entrenamiento, todo publicado

Al momento de su lanzamiento, NVIDIA publica también:

Pesos del modelo

Conjuntos de datos de entrenamiento

Técnicas/métodos de entrenamiento

El despliegue abarca tres capas:

Estaciones de trabajo locales: NVIDIA DGX Spark, DGX Station

Microservicios NIM: build.nvidia.com

Plataformas de terceros: Hugging Face, OpenRouter, y mediante más de 25 NVIDIA Cloud Partners, proveedores de plataformas de inferencia y servicios en la nube

Las herramientas personalizadas se utilizan con NVIDIA NeMo. La familia Nemotron 3 (Nano/Super/Ultra) en el último año acumuló más de 50.000.000 de descargas en Hugging Face, y esta Omni extiende las capacidades de esa familia a los ámbitos multimodales y agentic.

Este artículo sobre que NVIDIA publica Nemotron 3 Nano Omni de código abierto y multimodal aparece por primera vez en 鏈新聞 ABMedia.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios