NVIDIA presenta Nemotron 3 Nano Omni de código abierto multimodal

Según el anuncio del 28 de abril en el blog oficial de NVIDIA (autor Kari Briski), NVIDIA presentó Nemotron 3 Nano Omni — un modelo multimodal de código abierto que integra capacidades de visión, voz y lenguaje en un solo modelo, con el objetivo de proporcionar a los sistemas de agentes de IA una capa de “percepción” con menor latencia y menor costo.

Especificaciones clave: 30B-A3B MoE, contexto de 256K, 9 veces más rendimiento, y ocupar el 1.º lugar en 6 rankings

Arquitectura clave:

30B-A3B mixture-of-experts híbrido (30B de parámetros totales, 3B activados)

Integración de codificación Conv3D y EVS

Longitud de contexto 256K

Entrada: texto, imágenes, audio, videos, documentos, tablas, pantalla de GUI

Salida: texto

Señales de rendimiento: 9 veces más rendimiento con la misma capacidad de interacción que otros modelos omni de código abierto; en tres grandes categorías (inteligencia de documentos, comprensión de videos y comprensión de audio), obtuvo el 1.º lugar en un total de 6 rankings (NVIDIA no incluyó puntuaciones específicas en el anuncio; guía a los lectores para que consulten los detalles en el blog de desarrolladores).

NVIDIA posiciona Nemotron 3 Nano Omni como “los ojos y los oídos” dentro de los sistemas de agentes; puede repartirse el trabajo con otros modelos de la misma familia como Nemotron 3 Super (ejecución de alta frecuencia) y Nemotron 3 Ultra (planificación compleja), y también puede interoperar con modelos de nube de terceros. Tres escenarios típicos de aplicaciones de agentes:

Agente de uso de computadora (Computer Use Agent): razonamiento visual con resolución nativa de 1920×1080

Inteligencia de documentos: razonamiento de entradas multimodales que cruzan figuras, tablas, capturas y medios mixtos

Comprensión de audio/video: integrar voz, imágenes y grabaciones en una sola secuencia de inferencia

Equipo de adopción: Foxconn, Palantir se incorporan; el CEO de H Company emite una declaración con nombre

En el anuncio de NVIDIA se distingue explícitamente entre “adopción en producción” y “en evaluación”:

Adoptados en producción: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler

En evaluación: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.

El CEO de H Company, Gautier Cloix, emitió una declaración con nombre en el anuncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Traducción: “Para construir agentes útiles, no puedes esperar segundos a que un modelo interprete una pantalla. Al construir sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla en Full HD — algo que antes no era práctico.”

Estrategia de código abierto y despliegue: weights / datasets / métodos de entrenamiento, todo público

Al momento de su lanzamiento, NVIDIA dio a conocer:

Pesos del modelo

Conjunto de datos de entrenamiento

Tecnologías/técnicas y metodología de entrenamiento

El canal de despliegue abarca tres capas:

Estaciones de trabajo locales: NVIDIA DGX Spark, DGX Station

Microservicios NIM: build.nvidia.com

Plataformas de terceros: Hugging Face, OpenRouter, y mediante más de 25 NVIDIA Cloud Partners, plataformas de inferencia y proveedores de servicios en la nube

Las herramientas de personalización se usan con NVIDIA NeMo. La familia Nemotron 3 (Nano/Super/Ultra) acumuló descargas de más de 50 millones de veces en Hugging Face durante el año pasado; en esta ocasión, Omni extiende las capacidades de esa familia al ámbito multimodal y de agentes.

Este artículo sobre el lanzamiento de Nemotron 3 Nano Omni de NVIDIA como código abierto y multimodal apareció por primera vez en 鏈新聞 ABMedia.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios