Alibaba bringt die Qwen-Robot-Suite mit drei Modellen heraus, mehrere Robotermodelle sind „komplett Open Source“

Qwen-Robot Suite模型

Das Alibaba Qwen-Team veröffentlichte am 17. Juni die Qwen-Robot Suite, eine All-in-One-Plattform für verkörperte Intelligenz, die aus drei Basismodellen besteht: Qwen-RobotNav (bewegungsbasierte Navigation), Qwen-RobotManip (mechanische Manipulation) und Qwen-RobotWorld (physikalische Weltsimulation). Alle drei Modelle sind Open Source.

Qwen-RobotNav: Fünf Aufgaben unter einer einheitlichen Struktur, 15,6 Millionen Trainingsdaten

Qwen-RobotNav integriert fünf Aufgaben: Befehlsbefolgung, Zielpunkt-Navigation, Objektsuche, Zielverfolgung und autonome Fahrten, und bietet eine parametrische Schnittstelle (Token-Budget, Zeit-Dämpfung, Gewichtung pro Blick). Das Modell wurde auf 15,6 Millionen Stichproben trainiert. Die Erfolgsquote liegt im VLN-CE RxR-Benchmark (Navigation mit realer Umgebungsvisualisierung und Sprache) bei 76,5%, im EVT-Bench (Tracking beweglicher Ziele) bei 90%.

Qwen-RobotManip: 38.100 Stunden Trainingsdaten, Rang 1 im RoboChallenge Table30-v1

Die Art der Darstellung von Handlungen unterscheidet sich zwischen verschiedenen Robotern erheblich (Franka-Manipulatoren nutzen Gelenkwinkel, ALOHA-Dual-Arm nutzt Greiferpositionen und -ausrichtungen, humanoide Roboter nutzen Ganzkörperkoordinaten). Alibaba synthetisierte etwa 38.100 Stunden Trainingsdaten aus einer Open-Source-Roboter-Datenbank und menschlichen Videos, ohne sich auf private Datenerhebung zu stützen. Das Modell belegt Rang 1 im RoboChallenge Table30-v1-Benchmark und liegt damit 20% über früheren Methoden.

Qwen-RobotWorld: 8,6 Millionen Videodatensätze, Rang 1 in EWMBench und DreamGen Bench

Qwen-RobotWorld ist ein sprachkonditioniertes Videoweltmodell, das natürliche Sprache als universelle Aktionsschnittstelle nutzt: Der Befehl „Nimm den roten Becher und gieße Wasser in die Blumen“ ist für Greifer-, Self-Driving- oder bewegungsbasierte Navigationsagenten gleichermaßen anwendbar. Der Trainingskorpus umfasst 8,6 Millionen Videotext-Paare und 200 Millionen Frames, verteilt über Manipulation (5,9 Millionen Stichproben, 1.300+ Fähigkeiten, 20+ Morphologien), autonome Fahrten (Waymo, NVIDIA PhysicalAI-AD), Innenraumnavigation sowie Mensch-Roboter-Übertragungen über 14 Arten von Robotarmen. In den beiden Benchmarks EWMBench und DreamGen Bench belegt es jeweils Rang 1, und der physikalische Konsistenztest erhält die volle Punktzahl.

Offizielle Qwen-Erklärung: Softwaremodelle statt physische Roboter, Preis und Zeitplan noch nicht bekannt

Laut der Erklärung im offiziellen Qwen-Blog ist die Qwen-Robot Suite ein Softwaremodell statt eines physischen Roboters. Für den realen Einsatz in Heim-Szenarien soll es noch mehrere Jahre dauern. Alibaba hat derzeit weder Preis, Zeitplan noch eine Liste von Kunden außerhalb geplanter Pilotprojekte bekanntgegeben. Auch westliche Labore wie Google DeepMind, Nvidia, Figure und Physical Intelligence verfolgen ähnliche Ziele, doch Berichten zufolge konzentriert sich der Großteil eher auf einzelne Fähigkeiten wie Navigation oder Manipulation, statt auf ein einheitlich montierbares Komplettpaket.

Häufige Fragen

Wofür sind die drei Modelle der Qwen-Robot Suite jeweils gedacht?

Laut dem offiziellen Qwen-Blog sind die drei Modelle so positioniert: Qwen-RobotNav ist für bewegungsbasierte Navigation zuständig (fünf Aufgaben unter einer einheitlichen Struktur); Qwen-RobotManip ist für mechanische Manipulation über verschiedene Roboter hinweg zuständig (kompatibel mit unterschiedlichen Darstellungen von Handlungen); Qwen-RobotWorld ist für physikalische Weltsimulation zuständig (Sprache als universelle Aktionsschnittstelle). Die drei Modelle sind jeweils eigenständig und zusammen bilden sie eine vollständige Plattform für verkörperte Intelligenz.

Ist die Positionierung „Robot Android Times“ so, wie Qwen es selbst gesagt hat?

Ja. „Der Android-Moment für Robotik“ ist die von Alibaba Qwen bei der Veröffentlichung verwendete Positionsbeschreibung und bedeutet, dass die Qwen-Robot Suite eine Plattform auf Betriebssystemebene ist, nicht Hardware. Das ist eine Marktplatzierungsformulierung von Qwen und keine Bewertung durch Dritte.

Ist die Qwen-Robot Suite extern Open Source?

Laut dem offiziellen Qwen-Blog wurden alle drei Modelle vollständig als Open Source veröffentlicht. Die Trainingsdaten von Alibaba stammen aus einer Open-Source-Roboter-Datenbank und menschlichen Videos, ohne auf private Datenerhebung angewiesen zu sein. Die Open-Source-Strategie ist eine der Kernbotschaften der aktuellen Veröffentlichung.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare