Laut einer Ankündigung im NVIDIA-Official-Blog vom 28. April (Autor Kari Briski) hat NVIDIA Nemotron 3 Nano Omni vorgestellt – ein quelloffenes multimodales Modell, das visuelle, sprachliche und Sprachfähigkeiten in einem einzigen Modell integriert. Das Ziel ist, der KI-Agenten-Systemumgebung eine „Wahrnehmungsschicht“ mit geringerer Latenz und niedrigeren Kosten bereitzustellen.
Kern-Spezifikationen: 30B-A3B MoE, 256K Context, 9-facher Durchsatz, Platz 1 auf 6 Ranglisten
Wichtige Architektur:
30B-A3B Hybrid-Mixture-of-Experts (gesamt 30B Parameter, aktiv 3B)
Integration von Conv3D und EVS-Encoding
256K-Context-Länge
Eingaben: Text, Bilder, Audio, Videos, Dokumente, Diagramme, GUI-Bildschirme
Ausgaben: Text
Leistungs-Signale: 9-facher Durchsatz bei gleicher Interaktivität im Vergleich zu anderen quelloffenen omni-Modellen; in drei Kategorien von Dokumentenintelligenz, Videoverständnis und Audioverstehen insgesamt 6 Benchmark-Ranglisten auf Platz 1 (NVIDIA hat in der Ankündigung keine konkreten Punktzahlen angegeben und verweist die Leser zur Entwickler-Blogseite, um detaillierte Informationen einzusehen).
NVIDIA positioniert Nemotron 3 Nano Omni als „Augen und Ohren“ in Agent-Systemen. Es kann innerhalb derselben Modellfamilie zusammenarbeiten, etwa mit Nemotron 3 Super (Hochfrequenz-Ausführung) und Nemotron 3 Ultra (komplexe Planung), und es kann auch mit Cloud-Modellen von Drittanbietern interoperabel sein. Drei typische Agent-Anwendungsfälle:
Computer-Use-Agent: native visuelle Inferenz bei 1920×1080 Auflösung
Dokumentenintelligenz: Inferenz bei kombinierten Eingaben, über Bild, Tabelle, Screenshot und Mixed-Media hinweg
Audio-/Video-Verständnis: Sprechen, Bildmaterial und Aufnahmen zu einem einzigen Inferenz-Stream integrieren
Anwendungs-/Nutzungs-Teilnehmer: Foxconn, Palantir steigt ein, H-Company-CEO mit namentlicher Stellungnahme
In der NVIDIA-Ankündigung wird eindeutig zwischen „Produktionseinsatz“ und „wird geprüft“ unterschieden:
Bereits in Produktion im Einsatz: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler
Wird geprüft: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr usw.
H-Company-CEO Gautier Cloix äußert sich in der Ankündigung namentlich: „To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.“ Übersetzung: „Um nützliche Agenten aufzubauen, kann man nicht Sekunden darauf warten, dass ein Modell einen Bildschirm interpretiert. Aufbauend auf Nemotron 3 Nano Omni können unsere Agenten vollständige HD-Bildschirmaufzeichnungen schnell interpretieren — etwas, das zuvor nicht praktisch umsetzbar war.“
Offenlegung der Open-Source-Strategie und Bereitstellung: weights / datasets / Trainingsmethoden komplett öffentlich
Zum Veröffentlichungszeitpunkt macht NVIDIA Folgendes öffentlich:
Modellgewichte
Trainingsdatensätze
Trainings-Tools/Techniken / Methodik
Die Bereitstellungspipeline umfasst drei Ebenen:
Lokaler Arbeitsplatz: NVIDIA DGX Spark, DGX Station
NIM-Microservices: build.nvidia.com
Drittanbieter-Plattformen: Hugging Face, OpenRouter, und bereitgestellt über 25+ NVIDIA Cloud Partners, Inferenzplattformen und Cloud-Service-Provider
Für maßgeschneiderte Tools wird NVIDIA NeMo verwendet. Die Nemotron-3-Familie (Nano/Super/Ultra) hat im vergangenen Jahr auf Hugging Face insgesamt mehr als 50.000.000 Downloads gesammelt. Mit diesem Omni wird die Fähigkeit der Familie in die Bereiche Multimodalität und agentisches Arbeiten erweitert.
Dieser Artikel über NVIDIA, der Nemotron 3 Nano Omni als quelloffenes multimodales Modell vorstellt, erschien zuerst in 鏈新聞 ABMedia.