NVIDIA stellt Nemotron 3 Nano Omni Open-Source-Multimodal vor

2026-04-28 18:15:18

Laut einer Ankündigung im NVIDIA-Official-Blog vom 28. April (Autor Kari Briski) hat NVIDIA Nemotron 3 Nano Omni vorgestellt – ein quelloffenes multimodales Modell, das visuelle, sprachliche und Sprachfähigkeiten in einem einzigen Modell integriert. Das Ziel ist, der KI-Agenten-Systemumgebung eine „Wahrnehmungsschicht“ mit geringerer Latenz und niedrigeren Kosten bereitzustellen.

Kern-Spezifikationen: 30B-A3B MoE, 256K Context, 9-facher Durchsatz, Platz 1 auf 6 Ranglisten

Wichtige Architektur:

30B-A3B Hybrid-Mixture-of-Experts (gesamt 30B Parameter, aktiv 3B)

Integration von Conv3D und EVS-Encoding

256K-Context-Länge

Eingaben: Text, Bilder, Audio, Videos, Dokumente, Diagramme, GUI-Bildschirme

Ausgaben: Text

Leistungs-Signale: 9-facher Durchsatz bei gleicher Interaktivität im Vergleich zu anderen quelloffenen omni-Modellen; in drei Kategorien von Dokumentenintelligenz, Videoverständnis und Audioverstehen insgesamt 6 Benchmark-Ranglisten auf Platz 1 (NVIDIA hat in der Ankündigung keine konkreten Punktzahlen angegeben und verweist die Leser zur Entwickler-Blogseite, um detaillierte Informationen einzusehen).

NVIDIA positioniert Nemotron 3 Nano Omni als „Augen und Ohren“ in Agent-Systemen. Es kann innerhalb derselben Modellfamilie zusammenarbeiten, etwa mit Nemotron 3 Super (Hochfrequenz-Ausführung) und Nemotron 3 Ultra (komplexe Planung), und es kann auch mit Cloud-Modellen von Drittanbietern interoperabel sein. Drei typische Agent-Anwendungsfälle:

Computer-Use-Agent: native visuelle Inferenz bei 1920×1080 Auflösung

Dokumentenintelligenz: Inferenz bei kombinierten Eingaben, über Bild, Tabelle, Screenshot und Mixed-Media hinweg

Audio-/Video-Verständnis: Sprechen, Bildmaterial und Aufnahmen zu einem einzigen Inferenz-Stream integrieren

Anwendungs-/Nutzungs-Teilnehmer: Foxconn, Palantir steigt ein, H-Company-CEO mit namentlicher Stellungnahme

In der NVIDIA-Ankündigung wird eindeutig zwischen „Produktionseinsatz“ und „wird geprüft“ unterschieden:

Bereits in Produktion im Einsatz: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler

Wird geprüft: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr usw.

H-Company-CEO Gautier Cloix äußert sich in der Ankündigung namentlich: „To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.“ Übersetzung: „Um nützliche Agenten aufzubauen, kann man nicht Sekunden darauf warten, dass ein Modell einen Bildschirm interpretiert. Aufbauend auf Nemotron 3 Nano Omni können unsere Agenten vollständige HD-Bildschirmaufzeichnungen schnell interpretieren — etwas, das zuvor nicht praktisch umsetzbar war.“

Offenlegung der Open-Source-Strategie und Bereitstellung: weights / datasets / Trainingsmethoden komplett öffentlich

Zum Veröffentlichungszeitpunkt macht NVIDIA Folgendes öffentlich:

Modellgewichte

Trainingsdatensätze

Trainings-Tools/Techniken / Methodik

Die Bereitstellungspipeline umfasst drei Ebenen:

Lokaler Arbeitsplatz: NVIDIA DGX Spark, DGX Station

NIM-Microservices: build.nvidia.com

Drittanbieter-Plattformen: Hugging Face, OpenRouter, und bereitgestellt über 25+ NVIDIA Cloud Partners, Inferenzplattformen und Cloud-Service-Provider

Für maßgeschneiderte Tools wird NVIDIA NeMo verwendet. Die Nemotron-3-Familie (Nano/Super/Ultra) hat im vergangenen Jahr auf Hugging Face insgesamt mehr als 50.000.000 Downloads gesammelt. Mit diesem Omni wird die Fähigkeit der Familie in die Bereiche Multimodalität und agentisches Arbeiten erweitert.

Dieser Artikel über NVIDIA, der Nemotron 3 Nano Omni als quelloffenes multimodales Modell vorstellt, erschien zuerst in 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.