Laut einer Ankündigung im offiziellen NVIDIA-Blog vom 28. April (Autor Kari Briski) hat NVIDIA Nemotron 3 Nano Omni vorgestellt — ein Open-Source-Multimodalmodell, das visuelle, sprachliche und sprachbezogene Fähigkeiten in einem einzigen Modell bündelt und als Ziel eine „Wahrnehmungsschicht“ für KI-Agent-Systeme mit geringerer Latenz und niedrigeren Kosten liefert.
Kern-Spezifikationen: 30B-A3B MoE, 256K-Context, 9-facher Durchsatz, Platz 1 in 6 Rankings
Wichtige Architektur:
30B-A3B Hybrid Mixture-of-Experts (Gesamtparameter 30B, aktivierte 3B)
Integration von Conv3D und EVS-Encoding
256K-Contextlänge
Eingaben: Text, Bilder, Audio, Videos, Dokumente, Diagramme, GUI-Bildschirme
Ausgaben: Text
Leistungssignale: 9-facher Durchsatz gegenüber anderen Open-Source-Omni-Modellen bei gleicher Interaktivität; Platz 1 in insgesamt 6 Benchmark-Rankings in drei Kategorien: „Dokumentenintelligenz“, „Videoverstehen“ und „Audioverstehen“ (NVIDIA nennt in der Ankündigung keine konkreten Punktzahlen und lenkt Leser dazu, die Details im Entwickler-Blog einzusehen).
NVIDIA ordnet Nemotron 3 Nano Omni als „Augen und Ohren“ in Agent-Systemen ein: Es soll innerhalb der Nemotron-3-Familie Aufgaben mit Nemotron 3 Super (hochfrequente Ausführung) und Nemotron 3 Ultra (komplexe Planung) aufteilen sowie mit Cloud-Modellen von Drittanbietern zusammenarbeiten können. Drei typische Agent-Use-Cases:
Computer-Use-Agent: native visuelle Inferenz bei 1920×1080 Auflösung
Dokumentenintelligenz: Inferenz für gemischte Medien-Eingaben über Bild, Tabelle, Screenshot
Audio-/Video-Verstehen: integriert Sprache, Bild und Aufzeichnungen zu einer einzigen Inferenzkette
Beteiligte/Anwender: Foxconn (Hon Hai), Palantir, zudem namentliche Stellungnahme des CEO von H Company
NVIDIA unterscheidet in der Ankündigung ausdrücklich zwischen „Produktionseinsatz“ und „in Evaluation“:
Bereits in Produktion eingesetzt: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler
In Evaluation: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr etc.
Der CEO von H Company, Gautier Cloix, äußert sich in der Ankündigung namentlich: „To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.“ Übersetzung: „Um nützliche Agenten zu bauen, kannst du nicht Sekunden warten, damit das Modell einen Bildschirm interpretiert. Aufbauend auf Nemotron 3 Nano Omni können unsere Agenten Full-HD-Bildschirmaufzeichnungen schnell interpretieren — etwas, das zuvor nicht praktikabel war.“
Open-Source-Strategie und Bereitstellung: weights / datasets / Trainingsmethoden vollständig offengelegt
Zum Zeitpunkt der Veröffentlichung stellt NVIDIA außerdem bereit:
Modellgewichte
Trainingsdatensets
Trainings-Tools/Methodik
Die Bereitstellungspipeline umfasst drei Ebenen:
Lokale Workstations: NVIDIA DGX Spark, DGX Station
NIM-Microservices: build.nvidia.com
Drittanbieter-Plattformen: Hugging Face, OpenRouter sowie Bereitstellung über mehr als 25 NVIDIA Cloud Partners, Inferenzplattformen und Cloud-Dienstanbieter
Für kundenspezifische Tools wird NVIDIA NeMo genutzt. Die Nemotron-3-Familie (Nano/Super/Ultra) hat sich im letzten Jahr auf Hugging Face auf mehr als 50 Millionen Downloads aufgebaut; mit dem diesjährigen Omni wird diese Fähigkeit der Familie auf den Multimodal- und agentischen Bereich erweitert.
Der Artikel, in dem NVIDIA Nemotron 3 Nano Omni als Open-Source-Multimodalmodell vorstellt, erschien zuerst in 鏈新聞 ABMedia.
Related News
Claude/GPT zu sehr auf Gefallen aus? Ein Abschnitt in der Claude.md-Anweisung, der ein AI zu harten, präzisen Antworten bringt
OpenAI kündigt ChatGPT Futures an: 26 Studierende der ersten Kohorte erhalten 10.000 US-Dollar Förderung, verteilt über mehr als 20 Hochschulen
NVIDIA und MediaTek arbeiten zusammen, um die nächste Generation KI-nativer Assistenten fürs Auto zu bauen
Chrome installiert 4 GB KI „unterschwellig“, löscht es danach und installiert es erneut – Forscher geben an, dass dies gegen die EU-Datenschutzgesetze verstößt
OpenAI veröffentlicht die MRC-Supercomputer-Netzwerkprotokolle! Gemeinsam mit Nvidia, AMD und Microsoft wird die Stargate-Infrastruktur aufgebaut