
Der CEO von NVIDIA, Huang Renxun, gab am 1. Juni während der Keynote auf der Computex in Taipeh die Veröffentlichung von Nemotron 3 Ultra bekannt. Dieses Open-Weight-Modell erzielte in einem gemeinsam von Artificial Analysis und NVIDIA durchgeführten, vorab veröffentlichten Bewertungslauf einen Intelligence-Index von 48 Punkten, musste sich jedoch Kimi K2.6 von Chinas Moonshot AI geschlagen geben, das 54 Punkte erreichte.
Nemotron 3 Ultra Technische Spezifikationen: 55 Milliarden aktive Parameter, 1 Million Token Kontextfenster und Versand am 4. Juni
Nemotron 3 Ultra nutzt eine Mixture-of-Experts- (MoE-) Architektur: insgesamt 5.500 Milliarden Parameter, wobei zu jedem beliebigen Zeitpunkt nur 55 Milliarden aktive Parameter aktiviert werden; kombiniert mit Mamba-2 Layern, Standard-Transformer-Attention-Mechanismen und einem MoE-Routing. Das Modell unterstützt ein Kontextfenster von 1 Million Token und verwendet die Multi-Token-Prediction- (MTP-) Technik, um die Generierungsgeschwindigkeit zu erhöhen.
NVIDIA erklärte, dass die Inferenzgeschwindigkeit von Ultra gegenüber vergleichbaren Open-Weight-Modellen um das 5-Fache höher sei und die Kosten um 30% niedriger lägen. In den vorab veröffentlichten DeepInfra-Endpunkten kann das Modell pro Sekunde mehr als 300 Output-Token verarbeiten; im Vergleich dazu verarbeiten DeepSeek V4 Pro und Kimi K2.6 über kommerzielle APIs pro Sekunde nur 50 bis 100 Token. Die Modellgewichte werden offengelegt, das Trainingssetup wurde veröffentlicht, und der offizielle Versandtermin ist der 4. Juni 2026.
Direkter Vergleich von Open-Source-AI-Intelligence zwischen den USA und China: Daten von Artificial Analysis
Laut den von Artificial Analysis veröffentlichten Bewertungsdaten sieht die Intelligence-Rangliste der wichtigsten Modelle wie folgt aus: Alle globalen Closed-Source-Top-Modelle (Anthropic, Google, OpenAI) liegen bei 57 Punkten; Kimi K2.6 (Moonshot AI, China, Veröffentlichung im April 2026) erreicht 54 Punkte und belegt weltweit Platz vier; Nemotron 3 Ultra (NVIDIA, USA) erzielt 48 Punkte und ist damit die Nummer eins unter den US-amerikanischen Open-Source-Modellen; Google Gemma 4 31B (USA) kommt auf 39 Punkte; Nemotron 3 Super (NVIDIA, März 2026, 120B Parameter) auf 36 Punkte; OpenAI gpt-oss-120b (USA) auf 33 Punkte. Der Intelligence-Index ist ein aggregierter Benchmark über 10 bewertete Bereiche (Inferenz, Codierung, Allgemeinwissen, Agentenleistung). Je höher der Wert, desto stärker das Modell.
Nemotron-Allianz und Nemotron 4: Bestätigtes nächstes Entwicklungs-Framework
NVIDIA gab auf der Computex zeitgleich bekannt, dass Nemotron 4 in Entwicklung ist. Verantwortlich dafür ist die Nemotron-Allianz, die NVIDIA im März 2026 aufgebaut hat; Mitglieder sind 8 KI-Labore, darunter Mistral AI und Perplexity, die gemeinsam auf Basis der DGX-Cloud-Infrastruktur entwickeln.
NVIDIA hatte zuvor bereits ein Fünfjahres-Investitionsprogramm für Open-Source-KI im Gegenwert von 26 Milliarden US-Dollar angekündigt; Nemotron 3 Ultra sei bislang das repräsentativste Ergebnis. Der Anteil der weltweiten Open-Source-Nutzung von chinesischen Open-Source-Modellen sei von rund 1,2% Ende 2024 auf rund 30% Ende 2025 gestiegen (Quelle: Decrypt, Bericht vom März 2026).
Häufige Fragen
Welche Verbesserungen bietet Nemotron 3 Ultra im Vergleich zu der vorherigen Nemotron 3 Super Generation?
Nemotron 3 Super wurde im März 2026 veröffentlicht, verfügt über 120 Milliarden Parameter und einen Intelligence-Index von 36 Punkten; Nemotron 3 Ultra erreicht einen Intelligence-Index von 48 Punkten. Das entspricht einer Verbesserung um 12 Punkte im Jahresvergleich. NVIDIA zufolge ist der Sprung um 12 Punkte in den Bereichen der Benchmarks eine deutliche Verbesserung.
Warum ist der Intelligence-Index von Kimi K2.6 höher als der von NVIDIA Nemotron 3 Ultra?
Der Intelligence-Index von Kimi K2.6 von Chinas Moonshot AI liegt bei 54 Punkten, also 6 Punkte höher als die 48 Punkte von Nemotron 3 Ultra. Damit steht es weltweit auf Platz vier bei allen Modellen (einschließlich Closed Source) und liegt nur 3 Punkte hinter den Closed-Source-Top-Modellen von Anthropic, Google und OpenAI (jeweils 57 Punkte). US-Teams wie OpenAI, Anthropic und Google neigen dazu, ihre stärksten Modelle hinter APIs zu halten, während chinesische Labore weiterhin hochbewertete Modelle in die Open-Source-Ökosysteme einbringen.
In welchen Einsatzszenarien ist der Geschwindigkeitsvorteil von Nemotron 3 Ultra am wichtigsten?
Ultra verarbeitet pro Sekunde über 300 Output-Token, also etwa drei- bis sechsfach so schnell wie die kommerziellen APIs von DeepSeek V4 Pro und Kimi K2.6. NVIDIA betont, dass dieser Vorteil besonders wichtig ist, wenn autonome KI-Agenten über lange Zeit mehrstufige Aufgaben ausführen, da sich die Wartezeiten pro Schritt bei komplexen Aufgaben schnell aufsummieren.