Branchenführer auf der Konferenz Beijing Zhiyuan diskutierten Bedenken hinsichtlich der Homogenisierung von KI-Modellen, während die Bewertungsergebnisse der führenden Modelle zunehmend konvergieren und die Lücke zwischen Open-Source- und Closed-Source-Modellen vermutlich nur noch 3-6 Monate beträgt. Bluerun Ventures Managing Partner Chen Weiguang, Direktor des Zhiyuan Research Institute Wang Zhongyuan, Galaxy General Founder und CTO Wang He sowie MiniMax CEO Li Dahai diskutierten langfristige Quellen des Werts im Zeitalter großer Modelle. Das Panel ging der Frage nach, ob sich KI-Modelle und der Bereich der verkörperten Intelligenz in Richtung Homogenisierung bewegen und wo es dauerhaft bestehende Wettbewerbsvorteile gibt. Beobachter der Branche sehen Talent als Schlüssel im US-China-Wettbewerb bei KI, wobei verkörperte Intelligenz Chinas Chance darstellt, Durchbruchsmomente zu erreichen, die mit AlphaGo und ChatGPT vergleichbar sind.
Wang Zhongyuan erklärte, dass die verschiedenen Ranglisten führender großer Modelle zwar überwältigend seien und die Rankings selbst nicht vollständig glaubwürdig, aber Modellunternehmen, die es wagen, Live-Demonstrationen durchzuführen und in reale Szenarien einzutreten, Selbstvertrauen zeigten und in realen Szenarien Daten-Closed-Loops finden könnten. Er sagte, insgesamt liege die Iteration der Leistung großer Modelle noch weit davon entfernt, eine Engpassgrenze zu erreichen, technische Wege seien nicht konvergiert, und die Zukunft könne mehrere Muster bringen, darunter „eine Supermacht mit mehreren starken Spielern“ oder „mehrere Giganten, die nebeneinander stehen“. Wang charakterisierte die Behauptungen, die Branche werde sich in Richtung Homogenisierung bewegen, als verfrüht.
Galaxy General Founder Wang He führte die Diskussion von Large Language Models hin zur verkörperten Intelligenz weiter. Er sagte, dass Large Language Models selbst noch viele Variablen hätten, mit größerer Unsicherheit bei multimodalen und Video-Verstehensfähigkeiten. Wang charakterisierte verkörperte Intelligenz derzeit als „die Phase von GPT-1 zu GPT-2“, wobei die Branche gerade erst in eine Beschleunigungsphase eintrete.
Wang He beschrieb die wettbewerbliche Burggraben-Absicherung der verkörperten Intelligenz als ein vollständiges System, das die Beschaffung von Quellendaten (synthetische Daten, menschliche Daten, Roboterdaten), Fähigkeiten zur Datenveredelung, Hardware-Iteration und Software-Hardware-Co-Design, Modell-Throughput-Fusion-Fähigkeiten sowie die endgültigen Hardware-Auslieferungsfähigkeiten umfasst. Er charakterisierte dies als ein umfassendes „hexagonales Krieger“-System und sagte, dass es weltweit keine ausgereiften Produkte dieser Art gebe und der Burggraben extrem tief sei.
MiniMax CEO Li Dahai führte den kommerziellen Erfolg von Anthropic als direkten Gegenbeweis gegen Homogenisierung an. Er sagte, dass große Modelle nicht nur „T-förmige Talente“ sein dürften, die lediglich über allgemeine horizontale Fähigkeiten verfügen, sondern vertikale Stärken brauchen. Li erklärte, Anthropic sei zu einem globalen Phänomen geworden, weil man Codierfähigkeiten auf ein beispiellos hohes Niveau auf der Grundlage des allgemeinen Modellfundaments aufgebaut habe, was hohe Bewertungen und beeindruckende kommerzielle Leistungen ermöglicht habe.
Li erklärte, dass große Modelle sich in eine Systementwicklung internalisieren würden, statt auf isolierte technische Punkte beschränkt zu bleiben. Er sagte, dass die zukünftige Optimierung von Modellen tief mit den Anwendungsszenarien koordiniert werden müsse, und verglich dies mit dem Motoren-Design, das mit dem gesamten Fahrzeug koordiniert werden müsse: wobei sich Optimierungsrichtungen bei F1-Rennwagen komplett von denen für Wocheneinkäufe unterscheiden. Li sagte, technische Universalität und kommerzielle Universalität müssten getrennt betrachtet werden: Für gutes Franchising/Commercialization sei eine extrem szenarienspezifische Modelloptimierung erforderlich, sodass jedes Unternehmen seinen eigenen Burggraben aufbauen könne, indem es die richtige Richtung finde.
Wang He teilte die Praxis von Galaxy General mit, basierend auf dem WAM-(World Action Model)-Paradigma. Bevor das WAM-Paradigma aufkam, nutzte Galaxy General 1 Milliarde Frames an Simulationsdaten, um Skalierungsmöglichkeiten für Greif-Fähigkeiten zu verifizieren. Das Unternehmen entwickelte GRASP-VLA, um Zero-Shot-Greifen beliebiger Objekte zu erreichen, wobei bis heute kein Modell, das sich auf reale Teleoperationsdaten stützte, ein vergleichbares Leistungsniveau erreicht habe.
Wang erklärte, dass das Aufkommen des WAM-Paradigmas den Daten-Engpass für verkörperte Intelligenz völlig durchbrochen habe. Traditionelle VLA-Modelle benötigen Daten mit Aktions-Labels und können sich nur auf Roboterdaten stützen. WAM setzt Action als Kern, führt visuelles Aktions-Planning über Future Prediction durch, ohne Aktions-Labels zu benötigen. Das bedeutet, dass Roboter direkt Verhaltenslogik aus menschlichen Videos lernen können, wobei massive menschliche Videodaten zu Trainingsmaterial werden.
Wang sagte, Galaxy General habe im März 2025 die weltweit erste WAM-Publikation veröffentlicht, und im April sagte NVIDIA Embodied Intelligence Lab Director Jim Fan, dass das Endgame für Roboter WAM sei. Wang charakterisierte das Pre-Training verkörperter Intelligenz als eine Phase, die in eine explosive Entwicklung übergehe, ohne Einschränkungen bei der Datenerfassung. Er sagte, dass in den nächsten zwei Jahren verkörperte Intelligenz ihren GPT-3,5-Moment vollständig einläuten werde; die Eintrittskarte seien mehrere Dutzend Millionen Stunden hochwertiger Daten und Milliarden Kapitalinvestitionen.
Wang Zhongyuan gab bekannt, dass die Diskussionen der Branche im letzten Jahr über das Scheitern des Scaling Law aus der Sorge stammten, dass „die Internet-Pre-Training-Daten aufgebraucht sind“. In den vergangenen zwei Jahren hätten Post-Training, Reasoning-Optimierung und Agent-„rekursive Selbst-Evolution“ eine neue Welle an Verbesserungen der Fähigkeiten gebracht. Wang sagte, das bedeute nicht unbedingt eine Zunahme der Parameter in den Modellen selbst, sondern dass das gesamte System zunehmend leistungsfähig werde, während KI sich vom Chat-Tool zu einem Ausführungs-Tool verwandle.
Als Forschungsinstitut erforscht Zhiyuan die nächste Wachstumskurve der Intelligenz. In den vergangenen zwei Jahren habe das Institut das Scaling-Paradigma im multimodalen Bereich verifiziert: Die Wujie-Emu3-Serie nutze weniger als 1% multimodaler Daten und zeige mit bereits zig Milliarden Parametern dennoch klare Leistungsverbesserungen. Das Institut habe nun damit begonnen, sich in Richtung World Foundation Models für die physische Welt vorzuarbeiten und Skalierungswege für World Models zu erforschen.
Li Dahai stellte MiniMax’ „Knowledge-Density-Law“ vor: Intelligenz großer Modelle insgesamt = Knowledge Density × Parameteranzahl. Er gab bekannt, dass sie bei der Bereitstellung Edge-Modelle für Automobilunternehmen im vergangenen Jahr nur 1B Parameter erreichen konnten, dieses Jahr auf 4B upgradiert hätten und im nächsten Jahr voraussichtlich in den Bereich von mehreren Dutzend Milliarden kommen werde. Da Quantisierungstechnologie sich verbessert und die Knowledge Density zunimmt, belegten stärkere Modelle nach der Quantisierung die gleichen Ressourcen wie zuvor, wobei die Skalenerweiterung von Edge-Modellen gerade erst beginne.
Li sagte, dass viele phasenweise gezogene Schlussfolgerungen in der Branche nur sehr kurze Haltbarkeiten hätten, weil sich die Entwicklung ständig über ältere Wahrnehmungen hinwegsetze. Er sagte, dass nicht nur Edge-Modelle noch enormen Raum für Wachstum hätten, sondern dass auch das Long-Context-Processing und die stromsparende Optimierung von Large Language Models weiterhin Skalierungspotenzial besäßen, das noch lange nicht vollständig ausgeschöpft sei; die Branche sei noch weit davon entfernt, in eine Konvergenzphase einzutreten.
Wang Zhongyuan sagte, dass die Entwicklung von KI-Technologie denselben Weg nehme wie autonomes Fahren: Sie müsse notwendigerweise einen Prozess durchlaufen, der von Sorge und Angst hin zur Anpassung und Nutzung gehe, dann zur Etablierung vollständiger Governance-Systeme und Mechanismen zur Zuweisung von Verantwortlichkeiten. Wenn Technologie 3-5-fache Produktivitätsverbesserungen bringen kann, könne ihre Popularisierung nicht blockiert werden, und die Menschheit, die mehrere Runden technologischer Wellen erlebt hat, werde entsprechende Governance-Lösungen finden.
Li Dahai sagte, die menschliche Gesellschaft sei im Wesentlichen durch „Lernen aus Fehlern“ entstanden: Flugzeugsicherheitsregeln und Tempolimits auf Straßen haben jeweils schmerzhafte Lektionen hinter sich. KI-Technologie werde die Effizienz dabei erhöhen, Schwachstellen zu entdecken und Probleme zu beheben, wodurch diese Kosten stark reduziert würden. In der Branche würden Sicherheits-Baselines bereits ab der Startphase stark betont, und Unternehmen übernähmen proaktiv soziale Verantwortung. Li sagte, das Muster des Lernens aus Fehlern sei möglicherweise schwer vollständig zu vermeiden, wobei Sicherheitsrisiken häufig aus unerwarteten Dimensionen auftauchten, wodurch Regelverbesserungen durch Lektionen zu einer Realität würden, der man sich stellen müsse.
Mit Blick auf Chinas Differenzierungsvorteile in der KI sagte Wang Zhongyuan, dass Chinas Lieferkette, Fertigungsvorteile und der riesige heimische Markt ausreichen, um die Umsetzung neuer Technologien zu inkubieren und zu katalysieren; verkörperte Intelligenz und World Models dürften dabei Bereiche sein, in denen China differenzierte Führungspositionen erreichen könnte.
Wang He sagte fest, dass verkörperte Intelligenz Chinas Chance sei. Er äußerte die Überzeugung, dass sowohl verkörperte Intelligenz’ „AlphaGo-Moment“ als auch „ChatGPT-Moment“ in China realisiert würden. Er sagte, wenn Zero-to-One in China abgeschlossen werde, werde One-to-Hundred in China auf jeden Fall reifen.
Li Dahai fügte als wichtigsten Kernfaktor noch hinzu: China verfügt über die größte Anzahl an den klügsten jungen KI-Talenten der Welt – das sei der fundamentalste Vorteil. In Kombination mit Vorteilen der Lieferkette, des Ökosystems und der Szenarien werde China auf jeden Fall in der KI-Branche bedeutende Fortschritte machen.
In welcher Phase hat Galaxy General gesagt, dass verkörperte Intelligenz angekommen ist?
Galaxy General Founder und CTO Wang He sagte auf der Beijing Zhiyuan-Konferenz, dass verkörperte Intelligenz derzeit auf der „Stufe von GPT-1 bis GPT-2“ sei und die Branche gerade erst in eine Beschleunigungsphase eintrete. Wang sagte, dass verkörperte Intelligenz in den nächsten zwei Jahren ihren GPT-3,5-Moment vollständig einläuten werde; die Eintrittskarte seien mehrere Dutzend Millionen Stunden hochwertiger Daten und Milliarden Kapitalinvestitionen.
Wie haben die Panelteilnehmer auf Bedenken hinsichtlich der Homogenisierung von KI-Modellen reagiert?
Zhiyuan Research Institute Direktor Wang Zhongyuan sagte, dass die gesamte Iteration der Leistung großer Modelle weit davon entfernt sei, einen Engpass zu erreichen, und die technischen Wege sich nicht angeglichen hätten; er charakterisierte Homogenisierungs-Behauptungen als verfrüht. MiniMax CEO Li Dahai führte den Erfolg von Anthropic bei Codierfähigkeiten an, als Beleg dafür, dass Unternehmen Differenzierung durch vertikale Stärken aufbauen können. Galaxy General Wang He beschrieb den wettbewerblichen Burggraben der verkörperten Intelligenz als ein vollständiges System, das Datenlieferung, Hardware-Iteration und Modellfähigkeiten umfasst; er sagte, dass es weltweit keine ausgereiften Produkte dieser Art gebe.
Welche Vorteile hat das Panel für Chinas KI-Entwicklung identifiziert?
Panelteilnehmer identifizierten mehrere Vorteile für China. Wang Zhongyuan nannte Chinas Lieferkette, Fertigungsvorteile und den riesigen heimischen Markt als ausreichend, um die Umsetzung neuer Technologien zu katalysieren. Li Dahai sagte, China habe die größte Anzahl an den klügsten jungen KI-Talenten der Welt als fundamentalsten Vorteil. Wang He äußerte die Überzeugung, dass Durchbruchsmomente der verkörperten Intelligenz, die mit AlphaGo und ChatGPT vergleichbar sind, in China realisiert würden; er sagte, wenn Zero-to-One in China abgeschlossen werde, werde One-to-Hundred in China auf jeden Fall reifen.
Related News
Dan Ives sagt, dass eine SpaceX-Tesla-Fusion voraussichtlich innerhalb eines Jahres erfolgen wird
Der Microsoft-CEO Nadella schlägt ein KI-Framework für Human Capital und Token Capital vor
MiniMax-CEO: Edge Model Intelligence kommt auf GPT-4-Niveau, Agent-Technologie braucht Zeit
Microsoft-CEO: Die KI-„Wettbewerbsgraben“ ist ein Lern-Feedback-Loop, und Unternehmen dürfen das Lernen nicht auslagern
Raoul Pal: Rechenleistung ersetzt Kapital, Engpässe bei KI lösen den Krypto-Geldkreislauf „dritte Welle“ aus