Das Qwen-Team von Alibaba stellte am Dienstag die Qwen-Robot Suite vor, ein Set aus drei Foundation-Modellen, das die Roboternavigation, -manipulation und eine physikbasierte Weltsimulation über einen einheitlichen Software-Stack hinweg antreiben soll. Das Unternehmen kündigte die Suite über Twitter am 16. Juni 2026 an und positionierte die Technologie als das, was es als „Full Stack für embodied Intelligence“ bezeichnet. Alibaba entwickelte die Modelle, um eine zentrale Herausforderung der Robotik anzugehen: Während KI-Agenten derzeit für die Entscheidungsfindung auf Large Language Models setzen, benötigen physische Roboter generative KI-Systeme, die in der Lage sind, physikbasierte Ausfallmodi zu bewältigen – statt auf Prompt-basiertem Reasoning zu beruhen. Die Veröffentlichung steht für Alibabas Strategie der vertikalen Integration über Chips, Cloud-Infrastruktur, KI-Modelle und Anwendungen hinweg, wobei Robotik als die physischste Ausprägung der Entwicklung von embodied AI in China gilt.

Qwen-Robot Suite vereint drei spezialisierte Modelle

Die Qwen-Robot Suite besteht aus drei Foundation-Modellen, die jeweils einen unterschiedlichen Aspekt robotischer Intelligenz abdecken. Qwen-RobotNav übernimmt Mobilität und Navigationsaufgaben. Qwen-RobotManip adressiert Manipulation und physische Interaktion mit Objekten. Qwen-RobotWorld simuliert die Physik, die sowohl Navigation als auch Manipulation ermöglicht. Laut Alibaba arbeitet jedes Modell unabhängig, bildet jedoch in Kombination einen kohärenten Software-Stack. Das Unternehmen beschreibt die Architektur als die Betriebssystem-Schicht für die Robotik – nicht als Hardware.

Qwen-RobotNav bündelt fünf Navigationsaufgaben in einem einzigen Modell: Befolgen von Anweisungen, Point-to-Goal-Navigation, Objektsuche, Zielverfolgung und autonomes Fahren. Das Modell stellt eine parametrisierte Schnittstelle bereit, mit konfigurierbarem Token-Budget, zeitlichem Zerfall und Gewichtungen pro Kamera, die ein Planner während des Betriebs neu konfigurieren kann. Alibaba trainierte das Modell auf 15,6 Millionen Samples mit Randomisierung über alle Parameter hinweg.

Qwen-RobotManip adressiert die Herausforderung inkompatibler Aktionsdarstellungen über unterschiedliche Robotik-Plattformen hinweg. Ein Franka-Arm arbeitet über Gelenkwinkel, während ein ALOHA-Roboter Aktionen über Greiferposition und -ausrichtung repräsentiert. Humanoide Roboter nutzen Koordinaten des gesamten Körpers. Alibaba synthetisierte etwa 38.100 Stunden Trainingsdaten aus Open-Source-Roboterdatensätzen und Human-Videos, um diese inkompatiblen Aktionsräume zu überbrücken.

Qwen-RobotWorld fungiert als sprachkonditioniertes Video-World-Modell, das natürliche Sprache als universelle Aktionsschnittstelle behandelt. Das Modell verarbeitet Befehle wie „Heb den roten Becher auf und gieße Wasser auf die Blume“ über verschiedene Robotertypen hinweg – einschließlich Greifern, autonomen Fahrzeugen und mobilen Navigationsagenten. Das Embodied World Knowledge-Korpus umfasst 8,6 Millionen Video-Text-Paare mit insgesamt 200 Millionen Frames über Manipulation, autonomes Fahren, Indoor-Navigation und Szenarien des Human-to-Robot-Transfers.

Modelle erreichen Top-Platzierungen über mehrere Robotik-Benchmarks

Qwen-RobotNav erreichte 76,5% Erfolg auf VLN-CE RxR, einem Benchmark für Vision-and-Language-Navigation in realen Umgebungen. Das Modell erzielte außerdem 90% Tracking-Performance auf EVT-Bench, das die Fähigkeit eines Agents bewertet, bewegliche Ziele konsequent zu verfolgen.

Qwen-RobotManip belegt Platz 1 in RoboChallenge Table30-v1 und übertrifft frühere Ansätze um 20%. Die Leistung des Modells beruht auf einem alignment-first Ansatz für cross-embodiment Training.

Qwen-RobotWorld belegt Platz 1 auf EWMBench und DreamGen Bench – zwei Benchmarks, die bewerten, ob World-Modelle realistische physikalische Umgebungen vorhersagen und generieren können. Das Modell schlägt alle Open-Source-Modelle auf WorldModelBench und PBench. Alibaba berichtet, dass das Modell in Physics-Adherence-Tests perfekte Werte erreicht: darunter Newtonsche Gesetze, Massenerhaltung, Fluiddynamik und Gravitation.

Trainingsdaten erstrecken sich über Millionen von Samples aus Open-Source-Roboterdatensätzen

Alibaba trainierte Qwen-RobotNav auf 15,6 Millionen Samples mit Randomisierung über Navigationsparameter hinweg. Das Unternehmen gab die spezifischen Quell-Datensätze für das Navigationstraining nicht bekannt.

Für Qwen-RobotManip synthetisierte Alibaba etwa 38.100 Stunden Trainingsdaten aus Open-Source-Roboterdatensätzen und Human-Videos. Das Unternehmen erklärte, es habe sich für das Training des Manipulationsmodells nicht auf proprietäre Datenerhebung gestützt.

Das Embodied World Knowledge-Korpus von Qwen-RobotWorld enthält 8,6 Millionen Video-Text-Paare über 200 Millionen Frames hinweg. Das Korpus umfasst 5,9 Millionen Manipulations-Samples mit 1.300+ Skills über 20+ Robotermorphologien. Daten fürs autonome Fahren stammen aus den Waymo-, NVIDIA PhysicalAI-AD- und Bench2Drive-Datensätzen. Die Indoor-Navigation-Daten leiten sich aus VLNVerse ab. Human-to-Robot-Transfer-Daten decken 14 Roboterarme ab.

Realer Robotereinsatz bleibt noch Jahre entfernt

Alibaba erklärte, dass der reale Robotereinsatz noch Jahre entfernt sei. Das Unternehmen räumte die Lücke zwischen kontrollierten Demonstrationsumgebungen und zuverlässigem Betrieb in der realen Welt ein. RoboCasa365, LIBERO-Plus und RoboTwin-Clean2Rand sind Simulations-Benchmarks und keine Szenarien für den Einsatz in der realen Welt. Der reale Einsatz bringt Sensorrauschen, Aktuator-Drift und Edge Cases mit sich, die Alibaba als fortlaufende Herausforderungen anerkennt.

Die Modelle sind Software-Systeme, die auf Hardware von Herstellern wie AgileX, Franka, Universal Robots und Unitree laufen sollen. Alibaba hat keine Preisangaben, spezifischen Einsatz-Zeitpläne oder welche Kunden den Zugang erhalten werden – jenseits von Pilotprogrammen – offengelegt.

FAQ

Was hat Alibaba am 16. Juni 2026 angekündigt?

Das Qwen-Team von Alibaba hat am Dienstag, dem 16. Juni 2026, die Qwen-Robot Suite angekündigt. Sie besteht aus drei Foundation-Modellen: Qwen-RobotNav für Navigation, Qwen-RobotManip für Manipulation und Qwen-RobotWorld für physikbasierte Weltsimulation. Das Unternehmen positionierte die Suite als einheitlichen Software-Stack für embodied Intelligence in der Robotik.

Welche Benchmark-Ergebnisse haben die Qwen-Robot-Modelle erreicht?

Qwen-RobotNav erreichte 76,5% Erfolg auf VLN-CE RxR und 90% auf EVT-Bench. Qwen-RobotManip belegt Platz 1 auf RoboChallenge Table30-v1 und übertrifft frühere Ansätze um 20%. Qwen-RobotWorld belegt Platz 1 auf EWMBench, DreamGen Bench, WorldModelBench und PBench unter Open-Source-Modellen, mit perfekten Ergebnissen in Physics-Adherence-Tests.

Wann werden Qwen-Robot-Modelle in realen Robotern eingesetzt?

Alibaba erklärte, dass der reale Robotereinsatz noch Jahre entfernt sei. Das Unternehmen hat keine spezifischen Einsatz-Zeitpläne, Preisangaben oder welche Kunden den Zugang erhalten werden – jenseits von Pilotprogrammen – offengelegt.

View Source

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.