NVIDIA lance Nemotron 3 Nano Omni open source, un modèle multimodal

Selon l’annonce du blog officiel de NVIDIA du 28 avril (auteur Kari Briski), NVIDIA a dévoilé Nemotron 3 Nano Omni — un modèle multimodal open source qui intègre des capacités de vision, de voix et de langage dans un seul modèle, avec pour objectif de fournir aux systèmes d’AI agent une « couche de perception » à plus faible latence et moins coûteuse.

Spécifications clés : 30B-A3B MoE, contexte 256K, débit 9 fois plus élevé, tête de 6 classements

Architecture clé :

30B-A3B hybrid mixture-of-experts (30B de paramètres au total, 3B activés)

Intègre le codage Conv3D et EVS

Longueur de contexte 256K

Entrées : texte, images, audio, vidéos, documents, tableaux, captures d’écran GUI

Sorties : texte

Signaux de performance : 9 fois plus de débit que les autres modèles open source omni à interaction équivalente ; en tête des 6 classements de référence dans trois catégories : intelligence documentaire, compréhension vidéo, compréhension audio (l’annonce NVIDIA ne donne pas les scores précis, invitant les lecteurs à se rendre sur le blog développeur pour les détails).

NVIDIA positionne Nemotron 3 Nano Omni comme « les yeux et les oreilles » au sein des systèmes d’agent, avec une répartition du travail possible au sein de la même famille de modèles : Nemotron 3 Super (exécution à haute fréquence), Nemotron 3 Ultra (planification complexe), etc., et une interopérabilité aussi avec des modèles cloud de tiers. Trois scénarios d’usage typiques d’agent :

Agent d’utilisation informatique (Computer Use Agent) : raisonnement visuel en résolution native 1920×1080

Intelligence documentaire : inférence via des entrées multimédias mixtes, à travers figures, tableaux et captures

Compréhension audio/vidéo : fusion de la parole, des images et des enregistrements en une seule chaîne d’inférence

Adoption : Foxconn, Palantir rejoint, et prise de position nominative du PDG de H Company

Dans l’annonce, NVIDIA distingue clairement « adoption en production » et « évaluation en cours » :

Déjà en production : Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鸿海), H Company, Palantir, Pyler

En cours d’évaluation : Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.

Le PDG de H Company, Gautier Cloix, a pris position nominativement dans l’annonce : « To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before. » Traduction : « Pour construire des agents utiles, vous ne pouvez pas attendre des secondes pour que le modèle interprète un écran. En nous appuyant sur Nemotron 3 Nano Omni, nos agents peuvent interpréter rapidement des enregistrements d’écran en Full HD — une chose qui n’était pas praticable auparavant. »

Stratégie open source et déploiement : weights / datasets / méthodes d’entraînement entièrement publiés

Au moment du lancement, NVIDIA publie simultanément :

Les poids du modèle

Les ensembles de données d’entraînement

Les techniques/méthodologies d’entraînement

Le pipeline de déploiement couvre trois niveaux :

Poste de travail local : NVIDIA DGX Spark, DGX Station

Microservices NIM : build.nvidia.com

Plateformes tierces : Hugging Face, OpenRouter, et fourniture via plus de 25 partenaires cloud NVIDIA, des plateformes d’inférence et des fournisseurs de services cloud

Les outils sur mesure utilisent NVIDIA NeMo. La famille Nemotron 3 (Nano/Super/Ultra) a accumulé, au cours de la dernière année, plus de 50 000 000 de téléchargements sur Hugging Face ; cette fois, Omni étend les capacités de cette famille aux domaines multimodaux et agentic.

Cet article annonçant l’ouverture du code de Nemotron 3 Nano Omni de NVIDIA : « open source multimodal » apparaît pour la première fois sur 鏈新聞 ABMedia.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire