Jensen Huang neuestes Interview (Teil 2): Warum macht NVIDIA nicht selbst einen Hyperscaler?

ChainNewsAbmedia

Im zweiten Abschnitt des Interviews mit Huang Renxun reagierte er direkt auf die Bedrohung durch TPU und ASIC für NVIDIA. Er betonte, dass NVIDIA nicht nur einen einzelnen KI-Chip herstellt, sondern eine Plattform für beschleunigtes Rechnen, wobei der Schwerpunkt auf der Integration des gesamten Ökosystems liegt. Wie beim Chip-Krieg zwischen den USA und China gilt: Beim KI-Wettbewerb geht es nicht um Sieg oder Niederlage an einem einzelnen Punkt; entscheidend ist, ob sich der gesamte Technologie-Stack gleichzeitig stärken kann.

Angesichts der Kritik „Wofür ist der große Schwerpunkt auf der Natur der KI – nämlich massiver Matrixmultiplikation – da, wenn man nicht lieber spezialisiertere TPU-artige Architekturen bestimmen lässt?“ lautet Huang Renxuns Antwort: Matrixmultiplikation ist wichtig, aber sie ist nicht alles, was KI ausmacht. Von neuen Attention-Mechanismen über hybride SSM, die Fusion von diffusion und autoregressivem Ansatz bis hin zur verteilten Ausführung von Modellen und Architektur-Innovationen: Der Fortschritt in der KI entsteht oft aus algorithmischer Innovation – nicht nur daraus, das Mooresche Gesetz durch Hardware-Feintuning weiterzuschieben.

Da NVIDIA über viel Bargeld verfügt und bereits tief in die KI-Infrastruktur und die Modellschicht eingestiegen ist – durch Investitionen in CoreWeave, Nebius, Nscale, sogar in OpenAI, Anthropic und dergleichen – warum steigt es dann nicht einfach selbst als Cloud-Service-Provider ein? Huang Renxuns Antwort bleibt dieselbe: Das Notwendige so viel wie möglich, das Unnötige so wenig wie möglich. Das fällt nicht in den Bereich „Wenn wir es nicht tun, macht es niemand“.

TPU und ASIC sind nicht ohne Bedrohung, aber der Schlachtfeld für NVIDIA ist größer

Im Hinblick auf den Trend rund um Google TPU, AWS Trainium und sogar OpenAI, Anthropic sowie andere große Kunden, die eigene Beschleuniger entwickeln oder alternative Beschleuniger einsetzen, zeigte Huang Renxun keine defensive Haltung. Stattdessen lenkte er den Fokus mehrfach wieder auf „NVIDIA macht nicht nur einen einzelnen KI-Chip, sondern eine Plattform für beschleunigtes Rechnen“.

Er betonte, dass NVIDIA „accelerated computing“ aufbaut und nicht nur „tensor processing“ betreibt. KI ist natürlich heute eine der wichtigsten Anwendungen, aber GPUs und CUDA können viel mehr als nur KI: Dazu gehören Molekulardynamik, Quantenchromodynamik, Datenverarbeitung, Strömungsmechanik, Teilchenphysik, Wirkstoffentwicklung, Bildgenerierung und verschiedenste wissenschaftliche Berechnungen. Dadurch reicht der Marktzugang von NVIDIA von Natur aus weiter als bei ASICs, die für einen einzigen Workload entwickelt wurden.

Angesichts der Kritik „Worin besteht der Kern der KI – massenhaft Matrixmultiplikation – und warum sollte man nicht spezialisiertere TPU-artige Architekturen dominieren lassen?“ lautet Huang Renxuns Antwort:

Matrixmultiplikation ist wichtig, aber sie ist nicht die Gesamtheit von KI. Vom neuen Attention-Mechanismus über hybride SSM, die Fusion von diffusion und autoregressivem Ansatz bis hin zur verteilten Ausführung von Modellen und Architektur-Innovationen: Der Fortschritt in der KI entsteht häufig aus algorithmischer Innovation – nicht nur daraus, das Mooresche Gesetz durch Hardware voranzutreiben.

Er sagt es sehr direkt: Wenn man nur auf die Skalierung von Transistoren setzt, gäbe es ungefähr jedes Jahr nur etwa 25% Verbesserung; aber NVIDIA schafft von Hopper bis Blackwell Effizienzsprünge im Bereich von 35x und sogar 50x. Das beruht nicht auf reinem Prozess-Tuning, sondern auf einer koordinierten Co-Design-Planung von Modell, Algorithmus, Netzwerk, Speicher, Systemarchitektur und CUDA.

Daher beschreibt Huang Renxun NVIDIA als ein „extremes Co-Design-Unternehmen“. Es macht nicht nur GPUs, sondern verändert synchron Dinge wie Prozessoren, Interconnects, Netzwerke, Bibliotheken, Algorithmen und das gesamte System. Ohne diese CUDA-Schicht mit hoher Programmierbarkeit lässt sich eine derart weitreichende Optimierung über Ebenen hinweg kaum realisieren.

Der Wert von CUDA: Installierte Basis, Vertrauen und globale Standardkompatibilität

Als der Moderator in Frage stellte, ob CUDA noch so eine starke Burgmauer hat, wenn große Kunden wie OpenAI, Anthropic, Google und AWS bereits selbst kernel schreiben und Framework-Optimierungen durchführen, antwortete Huang Renxun aus drei Perspektiven.

Erstens: Die Vollständigkeit und Zuverlässigkeit des Ökosystems. NVIDIA kann umfangreiche Unterstützung auf der Basisebene für Frameworks wie Triton, vLLM, SGLang bereitstellen, sodass Forschende auf einer Basis aufbauen können, die bereits ausreichend verifiziert ist. Für Entwickler ist das Schlimmste nicht, dass man sich selbst beim Schreiben irrt, sondern dass man überhaupt nicht beurteilen kann, ob der Fehler bei einem selbst oder bei der darunterliegenden Plattform liegt. Genau hier liegt ein Wert von CUDA: Es wurde „immer wieder bis zum Durchlaufen“ getestet und ist daher ausreichend vertrauenswürdig.

Zweitens: Die enorme installierte Basis. Huang Renxun stellte klar: Wenn du Framework-Entwickler oder Modell-Entwickler bist, ist das absoluteste, was du haben willst, die install base. Du möchtest nicht, dass deine Software nur für dich selbst läuft, sondern dass sie auf möglichst vielen Maschinen läuft. Von A10, A100 bis H100, H200 – und weiter zu Cloud und On-Prem, zu Robotern und Workstations: CUDA ist nahezu überall. Diese installierte Grundlage bedeutet, dass einmalige Entwicklung ein Abdecken sehr vieler Systeme weltweit ermöglicht.

Drittens: Allgemeingültigkeit über Clouds hinweg und in verschiedenen Szenarien. Huang Renxun wies darauf hin, dass NVIDIA zu den sehr wenigen Rechenplattformen gehört, die gleichzeitig in allen gängigen Clouds und in On-Prem-Umgebungen präsent sind. Für KI-Unternehmen bedeutet das, dass sie nicht so früh auf nur einen Cloud-Service-Provider festgelegt sein müssen und ihre Produkte leichter in verschiedene Märkte und Szenarien ausrollen können.

Mit anderen Worten: Der Wert von CUDA besteht nicht nur darin, dass „die Toolchain bequem ist“, sondern darin, dass es zusammen mit der Vollständigkeit des Ökosystems, der weltweiten installierten Basis und der allgemeinen Einsetzbarkeit in Szenarien einen Stabilitäts- bzw. Wachstumszyklus bildet, der nur schwer leicht zu erschüttern ist.

Hohe Bruttomargen nicht über eine Software-Steuer, sondern über „Tokens pro Watt“ und Gesamthaltedkosten

Angesichts der Kritik von außen, dass NVIDIA seine hohen Bruttomargen vor allem aufgrund des CUDA-Monopols aufrechterhalten kann, und dass diese Margen möglicherweise angegriffen würden, falls künftig mehr Kunden die Fähigkeit haben, selbst kernel zu schreiben und eine alternative Software-Stack-Schichtung aufzubauen, ist Huang Renxuns Antwort sehr zuversichtlich.

Er wies darauf hin, dass der interne Aufwand von NVIDIA für Engineering-Support in großen KI-Laboren „unglaublich groß“ ist, weil GPUs nicht so leicht zu handhaben sind wie CPUs. Huang Renxun vergleicht CPUs mit Cadillac: ruhig, bequem und für alle leicht zu bedienen; und die Beschleuniger von NVIDIA seien eher wie F1-Rennwagen: Theoretisch kann sie jeder fahren, aber um die Leistung wirklich bis zum Grenzwert auszureizen, braucht es extrem hohe Fachkompetenz.

NVIDIA nutzt auch massiv KI, um eigene kernel zu generieren und zu optimieren. Daher kann es bei der gemeinsamen Feinabstimmung mit Kunden häufig einen bestimmten Modell- oder Stack-Verbesserungseffekt von 50%, dem Faktor 2 oder sogar dem Faktor 3 erzielen. Für Kunden mit großen GPU-Flotten ist diese Optimierung praktisch gleichbedeutend mit einer direkten Verdopplung der Einnahmen.

Huang Renxun geht noch weiter und argumentiert, dass die NVIDIA-Plattform weltweit die beste performance pro TCO bietet, also das beste Verhältnis aus Gesamt-Haltedkosten und Effizienz. Er sagte, niemand könne jemals wirklich belegen, dass TPU, Trainium oder andere Plattformen in Bezug auf Gesamtkosten und -effizienz besser seien als NVIDIA; außerdem fehle auf dem Markt an öffentlichen, glaubwürdigen und in direkter Weise überprüfbaren Gegenüberstellungen.

In seiner Sicht liegt der Erfolg von NVIDIA nicht daran, dass Kunden an CUDA gebunden sind, sondern daran, dass NVIDIA bei gleicher Energie und gleichen CapEx am meisten Tokens produziert und diese weiter in die höchsten Einnahmen umwandelt. Für Kunden, die ein KI-Rechenzentrum auf der Größenordnung von 1GW bauen, ist das Wichtigste nicht, ob ein einzelner Chip günstig ist, sondern ob das gesamte Rechenzentrum die maximalen Einnahmen generieren kann. Solange NVIDIA bei tokens per watt und perf per dollar weiterhin weltweit die Besten bleibt, haben hohe Bruttomargen eine nachvollziehbare Berechtigung.

Warum wird NVIDIA nicht selbst zum Hyperscaler?

Da NVIDIA über viel Bargeld verfügt und bereits tief in die KI-Infrastruktur und die Modellschicht eingestiegen ist – durch Investitionen in CoreWeave, Nebius, Nscale und sogar OpenAI, Anthropic und dergleichen – warum steigt es nicht einfach selbst als Cloud-Service-Provider ein?

Huang Renxuns Antwort bleibt immer noch bei dem Satz: „Das Notwendige so viel wie möglich, das Unnötige so wenig wie möglich.“

Wenn NVIDIA diese Dinge wie CUDA, NVLink, CUDA-X, Bibliotheken für verschiedene Fachbereiche und die darunterliegende Plattform nicht selbst macht, ist es sehr wahrscheinlich, dass sie überhaupt niemand tun würde; deshalb muss NVIDIA sie selbst machen. Aber wenn es um Cloud-Services geht, gibt es bereits viele davon auf der Welt – das fällt nicht in den Bereich „Wenn wir es nicht tun, macht es niemand“.

Allerdings, wenn neue KI-Cloud-Service-Provider noch sehr schwach sind und möglicherweise Hilfe brauchen, damit sie abheben können, ist NVIDIA bereit, Geld bereitzustellen, Versorgung sicherzustellen und technische Unterstützung zu leisten, um dieses Ökosystem beim Wachsen zu helfen. Das heißt: NVIDIA ist bereit, das Ökosystem zu fördern, möchte aber nicht selbst zum Financier oder Hyperscaler werden.

Was Investitionen in Modellfirmen wie OpenAI und Anthropic angeht, gesteht Huang Renxun auch ein, dass das eigentlich ein Lernresultat von NVIDIA in den letzten Jahren ist. Früher hatte NVIDIA nicht wirklich erkannt, dass grundlegende Modellunternehmen wie OpenAI oder Anthropic in der Frühphase ohne eine VC-Logik in der üblichen Form überhaupt nicht die erforderliche Kapitaldichte erreichen konnten. Erst als er das wirklich verstanden hat, wurde ihm bewusst, dass er – wenn er eine Chance gehabt hätte – früher hätte unterstützen können.

Er sagt sogar, das sei eine von seinen eigenen Fehlannahmen gewesen: „Damals habe ich nicht tief genug verstanden, dass diese Unternehmen ohne Unterstützung durch große Tech-Konzerne oder Kapital in einer ähnlichen Größenordnung kaum überhaupt entstehen könnten.“ Heute hat NVIDIA eine größere Skalierung, und er erklärt, dass er denselben Fehler nicht noch einmal machen wird.

Das China-Problem: der schärfste Abschnitt der gesamten Diskussion

Der heftigste Schlagabtausch des gesamten Interviews konzentriert sich auf China und die Beschränkungen beim Chip-Export. Die Position des Moderators ist: KI-Rechenleistung ist eine direkte Input-Komponente für das Training und die Bereitstellung von Hochrisikomodellen. Wenn China mehr fortgeschrittene Rechenleistung erhält, könnte es schneller Modelle entwickeln, die Fähigkeiten wie Netzwerkangriffe und Schwachstellensuche besitzen, was eine echte Gefahr für die nationale Sicherheit und die Unternehmenssicherheit der USA darstellt.

Huang Renxun bestreitet nicht, dass KI Risiken hat, und bestreitet auch nicht, dass die USA ihre Führungsposition fortlaufend bewahren sollten. Doch er ist sehr entschieden dagegen, KI-Chips gleichzusetzen mit Nuklearwaffenmaterial oder mit der extremen Schlussfolgerung „Wenn man einfach ein bisschen mehr verkauft, passiert etwas“.

Sein Kernargument hat mehrere Punkte.

Zuerst ist er der Ansicht, dass China kein Vakuum an Rechenleistung ist. China verfügt über riesige Energieressourcen, Chip-Produktionskapazitäten sowie Kommunikations- und Netzwerkinfrastruktur. Außerdem hat China einen sehr großen Anteil an KI-Forschungstalenten weltweit. In Huang Renxuns Darstellung ist China nicht „nicht in der Lage, KI zu entwickeln, wenn es nicht die NVIDIA-Chips bekommt“, sondern „wenn es nicht das Beste bekommt, weicht es auf das Eigene aus und ist gezwungen, schneller einen lokalen Technologie-Stack aufzubauen“.

Zweitens hält er die Nebeneffekte von Exportbeschränkungen für das, was China dazu zwingt, dass Open-Source-Modelle, das Ökosystem und die Chipindustrie schneller vom US-Technologie-Stack abdriften. In seinen Augen ist das das Risiko, um das sich die USA langfristig eher sorgen sollten. Denn KI besteht nicht nur aus Modellen; sie umfasst auch die Chip-Ebene, die Ebene der Entwicklungstools, die Open-Source-Ökosystem-Ebene und die Anwendungsebene sowie den gesamten Stack. Wenn die USA zum Schutz einer einzelnen Schicht, zum Beispiel der allerersten Modellunternehmen, die gesamte Auswirkung der Chip- und Entwickler-Ökosysteme auf den chinesischen Markt opfern, könnte es langfristig sogar dazu führen, dass die USA ihre Position im globalen Standard- und Plattformkrieg verlieren.

China ist der zweitgrößte Technologie- und Innovationsmarkt der Welt und zudem einer der größten Beitragsleister für Open-Source-Software und Open-Source-Modelle. Wenn die USA diese Marktfläche aktiv aufgeben, ist das gleichbedeutend damit, dass sie die gesamte Entwicklerbasis aktiv in einen anderen Technologie-Stack verschieben. Das schadet nicht nur NVIDIA, sondern auch der gesamten US-Technologieindustrie und der nationalen Sicherheit.

Drittens betont er wiederholt: Die Welt ist kein Nullsumme-Spiel mit unendlichen Extrem-Spekulationen. Die USA sollten natürlich die meiste, beste und früheste Rechenleistung haben – damit stimmt er vollständig überein. Aber das bedeutet nicht, dass die USA den zweitgrößten Markt der Welt freiwillig aufgeben sollten oder KI als eine Art Absolutwaffe darstellen sollten, ähnlich wie angereichertes Uran. Für ihn hilft eine zu extreme Erzählung nicht nur bei der Politikgestaltung nicht, sie kann auch Talente vertreiben, das Vertrauen in die Industrie schwächen und am Ende bewirken, dass die USA selbst ihren Wettbewerbsvorteil verlieren.

Er zieht das sogar zurück in den Kontext der Industriepolitik im Inland: „Wenn die USA KI aus Angst übermäßig zu einer Waffe machen, wird das zugleich dazu führen, dass mehr Menschen sich gegen den Einsatz von Software, Engineering und verwandten Bereichen wehren.“ Für ihn ist diese angstbasierte Politik eine Art „Verlierer-Mindset“ und nicht die Haltung, die ein Land haben sollte, das eine Technologierevolution anführt.

Was Huang Renxun eigentlich sagen will, ist: „Beim KI-Wettbewerb geht es nicht um Sieg oder Niederlage an einem einzelnen Punkt; es kommt darauf an, ob der gesamte Technologie-Stack gleichzeitig wachsen kann.“

Dieser Artikel Der neueste Exklusiv-Interview (unten) von Huang Renxun: Warum macht sich Nvidia nicht selbst zum Hyperscaler? erscheint zuerst auf Lianxin ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare