NVIDIA öffnet langfristige KI-Partnerschaft: Deepinfra erhält 107 Millionen US-Dollar B-Runden-Finanzierung, um eine „Token-Fabrik“ aufzubauen

ChainNewsAbmedia

2026-05-10 00:04:08

GLM-2,51%

Die KI-Startup DeepInfra hat den Abschluss einer B-Runden-Finanzierung in Höhe von 107 Millionen US-Dollar bekannt gegeben. Die Runde wird von 500 Global und Georges Harik, einem frühen Google-Ingenieur, angeführt; strategische Investoren wie NVIDIA (NVIDIA), Samsung Next und Supermicro beteiligen sich ebenfalls. Laut offizieller Mitteilung soll das frische Kapital dazu genutzt werden, die Kapazitäten globaler Rechenzentren auszubauen und damit die derzeitigen Rechenkosten sowie Effizienz-Engpässe zu lösen, wenn KI-Anwendungen von „Modelltraining“ auf „Großskaliges Inferenz-/Schlussfolgern (Inference)“ umstellen.

Der sprunghafte Anstieg der KI-Inferenz-Nachfrage wird zum zentralen Engpass für Unternehmen bei der Einführung

Mit der Marktreife der KI hat sich der Schwerpunkt der Arbeitslasten von Unternehmen spürbar verschoben. DeepInfra beobachtet, dass seit der B-Runde die Token-Menge, die die Plattform verarbeitet, um das 25-fache gestiegen ist, was zeigt, dass Inference (Schlussfolgern) inzwischen zur treibenden Kraft für die KI-Arbeitslasten von Unternehmen geworden ist. Aktuell können Open-Source-Modelle in ihrer Leistungsfähigkeit bereits mit proprietären Systemen mithalten und senken damit deutlich die Hürde für Innovation. Gleichzeitig führen die damit einhergehenden Anwendungen autonomer KI-Agenten (Agentic Systems) dazu, dass eine einzelne Aufgabe möglicherweise Hunderte Male Modellaufrufe auslöst. Da klassische universelle Cloud-Plattformen nicht für Inferenzanforderungen ausgelegt sind, stehen Unternehmen vor Herausforderungen wie zu hohen Betriebskosten und nicht kontrollierbaren Latenzen, wodurch Inferenz zu einer Systembeschränkung für die Arbeitslast wird.

Vertikal integrierte Stack-Optimierung verbessert tokenökonomische Effizienz

DeepInfra setzt auf eine Strategie der vertikalen Integration und vertritt die Ansicht, dass hochperformantes Inferenzieren nur durch ein koordiniertes Design von Hardware, Netzwerk und Software erreicht werden kann. Das Team verfügt aus der Vergangenheit über Erfahrung in der Entwicklung globaler Kommunikationsanwendungen, mit dem Betrieb eines verteilten Systems für 200 Millionen Nutzer. Aktuell hat DeepInfra in den USA bereits acht GPU-Infrastruktur-Standorte aufgebaut. Im Unterschied zu Dienstleistern, die Kapazitäten von Dritten mieten, besitzt DeepInfra die vollständige Kontrolle über den Stack – von der Chip-Ebene bis hin zur API-Schnittstelle. Dieses Design ermöglicht es, Aufgaben der „immer aktiven“ Token-Generierung gezielt zu optimieren und bei der Ausführung intelligenter KI-Workloads eine bessere vorhersehbare Latenz zu liefern als in einer generischen Cloud-Umgebung.

Deepinfra als langfristiger, offener AI-Ökosystem-Partner für NVIDIA

Deepinfra ist ein früher Kooperationspartner für die offene AI-Ökosystem-Infrastruktur von NVIDIA und unterstützt das Nemotron-Modell, die NemoClaw-Agentenarchitektur sowie die NVIDIA-Dynamo-Inferenzsoftware. Die frühe Einführung von Blackwell-GPUs und die bevorstehende Integration von Vera Rubin und Dynamo werden die Kosten-Effizienz der Inferenz um bis zu 20-fach steigern.

Deepinfra bietet wettbewerbsfähige Open-Source-Modelle

Beim Kostenmanagement optimiert DeepInfra den Hardwarebetrieb, um über 190 Open-Source-Modelle abzudecken, und versucht, am Markt äußerst wettbewerbsfähige Preise bereitzustellen. Als Beispiel: Beim Open-Source-Inferenzmodell GLM-5 liegt der Mischpreis bei 1,24 US-Dollar pro Million Token, etwa 20 % unter dem Branchenmittel. Für „Thinking“-Modelle, die viele interne Token-Berechnungen erfordern, hat die Plattform einen Caching-Mechanismus entwickelt: Für wiederholte Eingaben mit statischem Text bietet sie ermäßigte Preise an, wodurch sich die Kosten für Multi-Round-Chats sowie für Pipelines des Retrieval-Augmented Generation (RAG) wirksam senken lassen. Um den Sicherheitsanforderungen von Unternehmen gerecht zu werden, bietet DeepInfra eine API, die mit OpenAI kompatibel ist, und verspricht eine Null-Datenaufbewahrung; zudem stellt das Unternehmen die Einhaltung durch SOC-2- und ISO-27001-Zertifizierungen sicher, sodass Entwickler Modelle direkt in produktionsreife Umgebungen übernehmen können.

Spezialisierte Inferenz-Infrastruktur ist für die nächste Phase der Künstlichen Intelligenz entscheidend

Die Unterstützung des Investmentmarkts für DeepInfra spiegelt wider, dass die Bedeutung der KI-Infrastruktur zunehmend über die Modelle selbst hinauswächst. Tony Wang, Managing Partner bei 500 Global, sagte, dass Entwickler in agentengetriebenen Entwicklungsumgebungen einen spezialisierteren Plattformstack benötigen, der flexibler, schneller und zuverlässiger ist. Nach Abschluss dieser Finanzierungsrunde beläuft sich die Gesamtfinanzierung von DeepInfra bereits auf 133 Millionen US-Dollar. Die Mittel werden eingesetzt für den Ausbau globaler Rechenleistung, die Vertiefung der Entwickler-Tools sowie die Unterstützung für Next-Gen-Modelle autonomer Agenten. Da DeepInfra jede Woche Token-Mengen nahe an 5 Billionen verarbeitet, ist das Ziel der Aufbau einer hocheffizienten „Token-Fabrik“, um Unternehmen in der Phase skalierbarer KI-Anwendungen eine nachhaltige Rechenkapazitätsbasis bereitzustellen.

Der Artikel „NVIDIA offener AI-Langzeitpartner Deepinfra erhält 107 Millionen US-Dollar B-Runden-Finanzierung und baut eine ‚Token-Fabrik‘ auf“ erschien zuerst in „Kettennachrichten ABMedia“.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.