OpenAI kündigt die Einführung eines neuen KI-„Supercomputer“-Netzwerkprotokolls MRC (Multipath Reliable Connection) an und hat es bereits über das Open Compute Project (OCP) als Open-Source veröffentlicht. Diese Technologie wurde gemeinsam von OpenAI und Anbietern wie AMD, Microsoft, NVIDIA, Intel, Broadcom sowie weiteren entwickelt. Ziel ist es, den Datenübertragungs-Engpass zwischen GPUs in riesigen KI-Trainings-Clusters zu beheben.
Der eigentliche Engpass beim KI-Training ist, wie GPUs miteinander kommunizieren
OpenAI erklärt, dass sich mit den wöchentlichen Nutzern von ChatGPT inzwischen mehr als 900 Millionen Menschen die KI-Systeme zunehmend zu einem Service auf Infrastrukturniveau entwickeln. Um die Anforderungen an das Training und die Inferenz der nächsten Modellgeneration zu unterstützen, ist OpenAI der Ansicht, dass sich nicht nur das Modell selbst weiterentwickeln muss, sondern auch das Netzwerkdesign neu gedacht werden muss.
In einem technischen Artikel führt OpenAI aus, dass bei großen KI-Modellen in einem einzelnen Trainingsschritt möglicherweise Millionen Datenaustauschvorgänge zwischen GPUs stattfinden. Schon eine einzige Übertragungsverzögerung könne dazu führen, dass das gesamte Trainingssynchronisieren zum Stillstand kommt und somit viele GPUs untätig werden.
Und wenn die Supercomputer-Größe für KI immer weiter steigt, würden sich Probleme wie Netzwerkstau, Ausfälle von Switches und Verzögerungs-Jitter (jitter) laut OpenAI rasch um ein Vielfaches verstärken. OpenAI betrachtet dies als eine der wichtigsten technischen Herausforderungen im Stargate-Supercomputerprojekt.
Das Netzwerkdesign früherer Rechenzentren setzte meist auf eine Single-Path-Datenübertragung. Aber die größte Änderung von MRC besteht darin, dass dieselben Daten gleichzeitig über Hunderte von Pfaden verteilt übertragen werden.
Was ist MRC? OpenAI: Damit das KI-Netzwerk automatisch Hindernisse umgeht
Laut OpenAI und AMD besteht das Kernkonzept von MRC darin, dass:
Daten aufteilen und gleichzeitig über mehrere Pfade laufen lassen
Fehler automatisch auf Mikrosekunden-Ebene umfahren
Die durch Netzwerkstau verursachte Latenz reduzieren
Sicherstellen, dass GPUs synchron weiterarbeiten
AMD beschreibt, dass traditionelle KI-Netzwerke wie Autobahnen seien, die nur eine einzige Route nutzen: Sobald es Stau oder Unfälle gibt, wirkt sich das auf den gesamten Fortschritt aus. MRC hingegen sei wie ein intelligentes Verkehrssystem mit der Fähigkeit zu sofortigen Umleitungen. AMD sagt sogar unverblümt: „Der wahre Engpass bei der Skalierung von KI ist nicht mehr GPU und CPU, sondern das Netzwerk.“
Warum OpenAI ein eigenes Netzwerkprotokoll entwerfen will
Das Signal, das OpenAI diesmal aussendet, ist sehr eindeutig: Der KI-Wettbewerb ist nicht mehr nur ein Wettbewerb um Modelle, sondern ein Wettbewerb um die gesamte „Supercomputer-Infrastruktur“. In dem Artikel erwähnt OpenAI, dass sie vor dem Auftreten von Stargate gemeinsam mit Partnern bereits drei Generationen KI-Supercomputer gewartet haben. Aus diesen Erfahrungen kommt OpenAI zu dem Schluss, dass, um Rechenleistung im Stargate-Umfang effektiv zu nutzen, der gesamte Stack die Komplexität deutlich senken muss. Dazu gehört auch die Netzwerkschicht.
Das bedeutet: Beim Wettbewerb um zukünftige Frontier Models geht es nicht mehr nur darum, wer das stärkere Modell hat, sondern wer es schafft, mit maximaler Effizienz Dutzende- bis Hunderttausende, ja sogar Millionen GPUs synchron zum Laufen zu bringen.
MRC steckt hinter Stargate: OpenAIs Manhattan-Projekt
Der Hintergrund von MRC ist eigentlich Stargate LLC. Stargate ist ein großes KI-Infrastrukturvorhaben, das von OpenAI, SoftBank Group, Oracle Corporation und MGX vorangetrieben wird. Ursprünglich bestand das Ziel darin, in den USA in KI-Infrastruktur Investitionen von bis zu 5.000 Milliarden US-Dollar zu tätigen. OpenAI gibt an, dass man inzwischen die Zwischenetappenziele von ursprünglich mehr als 10GW erreicht habe und in den letzten 90 Tagen zusätzlich mehr als 3GW an Kapazität für KI-Infrastruktur aufgebaut worden seien.
Der Stargate-Supercomputer in Abilene, Texas, ist eines der wichtigsten Einsatzfelder für MRC. OpenAI weist darauf hin, dass MRC in die neueste 800Gb/s-Netzwerkschnittstelle integriert wurde und im Betrieb bereits in realen großen Trainings-Clusters eingesetzt wird.
Dieser Artikel „OpenAI veröffentlicht MRC-Supercomputer-Netzwerkprotokoll!“ erschien zuerst bei 鏈新聞 ABMedia.
Related News
ChatGPT bringt Excel- und Google-Sheets-Integration an den Start: GPT-5,5 meldet sich direkt in der Tabelle an, Copilot und Gemini im direkten Vergleich
Meta entwickelt KI-Assistent Hatch als Konkurrent zu OpenClaw und will die interne Testphase bis Ende Juni abschließen
Anthropic bringt 10 Finanz-KI-Agenten heraus und integriert sie, um Finanzaufgaben mit Microsoft 365 problemlos zu erledigen
OpenAI, Anthropic starten PE-finanzierte KI-Dienstleistungsübernahme-Ventures
OpenAI-Update für die Smartphone-Lieferkette: Hat MediaTek einen exklusiven Prozessor? Die Serienproduktionspläne werden auf die erste Jahreshälfte 2027 vorgezogen