Alibaba dévoile la suite Qwen-Robot : trois modèles d’IA pour l’intelligence des robots

L’équipe Qwen d’Alibaba a dévoilé, mardi, la suite Qwen-Robot, un ensemble de trois modèles fondamentaux conçus pour alimenter la navigation robotique, la manipulation et la simulation d’un monde basé sur la physique, le tout via une pile logicielle unifiée. La société a annoncé la suite sur Twitter le 16 juin 2026, en présentant la technologie comme un « full stack for embodied intelligence ». Alibaba a développé ces modèles pour répondre à un défi central en robotique : alors que les agents d’IA s’appuient aujourd’hui sur de grands modèles de langage pour la prise de décision, les robots physiques ont besoin de systèmes d’IA générative capables de gérer des modes de défaillance fondés sur la physique plutôt que de raisonner à partir d’invites. La sortie s’inscrit dans la stratégie d’intégration verticale d’Alibaba, qui couvre les puces, l’infrastructure cloud, les modèles d’IA et les applications, la robotique constituant l’expression la plus « physique » du développement de l’IA incarnée en Chine.

La suite Qwen-Robot unifie trois modèles spécialisés

La suite Qwen-Robot se compose de trois modèles fondamentaux, chacun gérant un aspect distinct de l’intelligence robotique. Qwen-RobotNav gère la mobilité et les tâches de navigation. Qwen-RobotManip s’intéresse à la manipulation et aux interactions physiques avec des objets. Qwen-RobotWorld simule la physique qui rend possible à la fois la navigation et la manipulation. D’après Alibaba, chaque modèle fonctionne indépendamment tout en formant une pile logicielle cohésive une fois combinés. La société décrit l’architecture comme la couche de système d’exploitation pour la robotique, plutôt que comme du matériel.

Qwen-RobotNav unifie cinq tâches de navigation au sein d’un seul modèle : suivi d’instructions, navigation point-à-but, recherche d’objets, suivi de cibles et conduite autonome. Le modèle expose une interface paramétrée avec un budget de tokens configurable, une décroissance temporelle et des poids par caméra qu’un planificateur peut reconfigurer pendant l’exécution. Alibaba a entraîné le modèle sur 15,6 millions d’échantillons, avec randomisation sur l’ensemble des paramètres.

Qwen-RobotManip traite le défi des représentations d’actions incompatibles entre différentes plateformes robotiques. Une main Franka fonctionne via des angles articulaires, tandis qu’un robot ALOHA représente les actions via la position et l’orientation de la pince. Les robots humanoïdes utilisent des coordonnées du corps entier. Alibaba a synthétisé environ 38 100 heures de données d’entraînement à partir de jeux de données robotiques open-source et de vidéos humaines afin de relier ces espaces d’actions incompatibles.

Qwen-RobotWorld fonctionne comme un modèle de monde vidéo conditionné par le langage, traitant le langage naturel comme une interface d’action universelle. Le modèle traite des commandes telles que « Ramasse la tasse rouge et verse de l’eau sur la fleur » sur différents types de robots, y compris des pinces, des véhicules autonomes et des agents de navigation mobile. Le corpus Embodied World Knowledge couvre 8,6 millions de paires vidéo-texte, soit 200 millions d’images au total, réparties entre la manipulation, la conduite autonome, la navigation intérieure et des scénarios de transfert homme-à-robot.

Les modèles obtiennent les meilleurs classements sur plusieurs benchmarks de robotique

Qwen-RobotNav atteint 76,5 % de réussite sur VLN-CE RxR, un benchmark de navigation vision-langage en environnements réels. Le modèle atteint aussi 90 % de performance de suivi sur EVT-Bench, qui évalue la capacité d’un agent à suivre de façon constante des cibles en mouvement.

Qwen-RobotManip arrive en première position sur RoboChallenge Table30-v1, dépassant les approches précédentes de 20 %. Les performances du modèle s’expliquent par son approche d’alignement d’abord pour l’entraînement cross-embodiment.

Qwen-RobotWorld arrive en première position sur EWMBench et DreamGen Bench, deux benchmarks évaluant si les modèles de monde prédisent et génèrent des environnements physiques réalistes. Le modèle bat tous les modèles open-source sur WorldModelBench et PBench. Alibaba indique que le modèle obtient un score parfait sur des tests d’adhérence à la physique couvrant les lois de Newton, la conservation de la masse, la dynamique des fluides et la gravité.

Les données d’entraînement couvrent des millions d’échantillons issus de jeux de données robotiques open-source

Alibaba a entraîné Qwen-RobotNav sur 15,6 millions d’échantillons avec randomisation sur les paramètres de navigation. La société n’a pas divulgué les jeux de données sources spécifiques utilisés pour l’entraînement à la navigation.

Pour Qwen-RobotManip, Alibaba a synthétisé environ 38 100 heures de données d’entraînement à partir de jeux de données robotiques open-source et de vidéos humaines. La société a indiqué qu’elle ne s’appuyait pas sur une collecte de données propriétaires pour l’entraînement du modèle de manipulation.

Le corpus Embodied World Knowledge de Qwen-RobotWorld contient 8,6 millions de paires vidéo-texte couvrant 200 millions d’images. Le corpus comprend 5,9 millions d’échantillons de manipulation couvrant 1 300+ compétences pour 20+ morphologies robotiques. Les données de conduite autonome proviennent des jeux Waymo, NVIDIA PhysicalAI-AD et Bench2Drive. Les données de navigation intérieure sont issues de VLNVerse. Les données de transfert homme-à-robot couvrent 14 bras robotiques.

Le déploiement de robots en conditions réelles reste à plusieurs années

Alibaba a déclaré que le déploiement de robots en conditions réelles reste à plusieurs années. La société a reconnu l’écart entre les environnements de démonstration contrôlés et un fonctionnement réel fiable. RoboCasa365, LIBERO-Plus et RoboTwin-Clean2Rand sont des benchmarks de simulation plutôt que des scénarios de déploiement en conditions réelles. Le déploiement réel introduit du bruit capteur, une dérive des actionneurs et des cas limites, que Alibaba considère comme des défis persistants.

Les modèles sont des systèmes logiciels conçus pour fonctionner sur du matériel provenant de fabricants incluant AgileX, Franka, Universal Robots et Unitree. Alibaba n’a pas divulgué les prix, des calendriers de déploiement précis, ni quels clients auront accès au-delà des programmes pilotes.

FAQ

Qu’a annoncé Alibaba le 16 juin 2026 ?

L’équipe Qwen d’Alibaba a annoncé la suite Qwen-Robot mardi 16 juin 2026, composée de trois modèles fondamentaux : Qwen-RobotNav pour la navigation, Qwen-RobotManip pour la manipulation et Qwen-RobotWorld pour la simulation de monde basée sur la physique. La société a positionné la suite comme une pile logicielle unifiée pour l’IA incarnée en robotique.

Quels résultats de benchmark les modèles Qwen-Robot ont-ils obtenus ?

Qwen-RobotNav obtient 76,5 % de réussite sur VLN-CE RxR et 90 % sur EVT-Bench. Qwen-RobotManip arrive en première position sur RoboChallenge Table30-v1, dépassant les approches précédentes de 20 %. Qwen-RobotWorld arrive en première position sur EWMBench, DreamGen Bench, WorldModelBench et PBench parmi les modèles open-source, avec des scores parfaits sur les tests d’adhérence à la physique.

Quand les modèles Qwen-Robot seront-ils déployés dans des robots en conditions réelles ?

Alibaba a déclaré que le déploiement en conditions réelles reste à plusieurs années. La société n’a pas divulgué de calendriers de déploiement précis, de prix, ni quels clients auront accès au-delà des programmes pilotes.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire