
Команда Qwen от Alibaba 17 июня опубликовала Qwen-Robot Suite — полноcтековый комплект воплощённого интеллекта, состоящий из трёх базовых моделей: Qwen-RobotNav (мобильная навигация), Qwen-RobotManip (механическое управление), Qwen-RobotWorld (симуляция физического мира). Все три модели уже открыты (open-source).
Qwen-RobotNav: пять задач объединены, 15,60 млн единиц обучающих данных
Qwen-RobotNav объединяет пять задач: следование инструкциям, навигацию к заданной цели, поиск объектов, отслеживание целей и автономное вождение, предоставляя параметризуемый интерфейс (лимит токенов, затухание по времени, вес на каждый кадр). Модель обучали на 15,60 млн образцов: в бенчмарке VLN-CE RxR (навигация по визуальному языку в реальной среде) точность составила 76,5%, а в EVT-Bench (отслеживание движущейся цели) — 90%.
Qwen-RobotManip: 38 100 часов обучающих данных, первое место в RoboChallenge Table30-v1
Представления действий у разных роботов сильно различаются (у манипулятора Franka — углы суставов, у ALOHA с двумя руками — положение и направление захватных клешней, у гуманоидных роботов — координаты всего тела). Alibaba синтезировала около 38 100 часов обучающих данных из открытой базы робототехнических данных и человеческих видео, не полагаясь на сбор закрытых (приватных) данных. Модель заняла первое место в бенчмарке RoboChallenge Table30-v1, обойдя предыдущие подходы на 20%.
Qwen-RobotWorld: 8,60 млн видеоданных, первое место в EWMBench и DreamGen Bench
Qwen-RobotWorld — языко-обусловленная видеомодель мира: естественный язык выступает универсальным интерфейсом действий. Команда «взять красную чашку и налить воду на цветы» подходит для агентов с разными задачами — для захвата, беспилотного вождения или мобильной навигации. Обучающий корпус включает 8,60 млн пар «видео—текст» и 2 сотни миллионов кадров, охватывая управление (5,90 млн образцов, 1 300+ навыков, 20+ морфологий), автономное вождение (Waymo, NVIDIA PhysicalAI-AD), навигацию внутри помещений, а также кросс-перенос человеко-роботного взаимодействия между 14 типами манипуляторов. В бенчмарках EWMBench и DreamGen Bench — первое место, тест на физическую согласованность — максимум.
Официальное пояснение Qwen: это софт-модели, а не физические роботы; цены и график пока не опубликованы
В соответствии с сообщением в официальном блоге Qwen, Qwen-Robot Suite — это софт-модели, а не физические роботы; для реального развёртывания в домашнем сценарии потребуется ещё несколько лет. Alibaba пока не раскрывала цены, график или список пилотных клиентов вне стандартных объявлений. Западные лаборатории, включая Google DeepMind, Nvidia, Figure и Physical Intelligence, также стремятся к схожим целям, но в отчётах говорится, что большинство уделяет внимание отдельным возможностям — навигации или управлению, а не единому конструктору-пакету.
Часто задаваемые вопросы
На какие сценарии рассчитаны три модели Qwen-Robot Suite?
Согласно официальному блогу Qwen, назначения трёх моделей таковы: Qwen-RobotNav отвечает за мобильную навигацию (пять задач объединены); Qwen-RobotManip отвечает за механическое управление между разными роботами (совместимо с разными способами представления действий); Qwen-RobotWorld отвечает за симуляцию физического мира (язык — универсальный интерфейс действий). Эти три модели независимы и в совокупности формируют полноcтековый комплект воплощённого интеллекта.
«Момент Android для роботов» — это формулировка, которую сказал Qwen сам?
Да. «Android-эпоха в робототехнике» — это позиционирование, которое Alibaba использовала в описании при выпуске Qwen; оно означает, что Qwen-Robot Suite — это платформа уровня операционной системы, а не железо. Это маркетинговая формулировка Qwen, а не сторонняя оценка.
Открыт ли для внешних пользователей (open-source) Qwen-Robot Suite?
Согласно официальному блогу Qwen, три модели полностью опубликованы с открытым исходным кодом. Обучающие данные Alibaba получены из открытой базы робототехнических данных и человеческих видео, сбор закрытых данных не использовался; стратегия open-source — одно из ключевых сообщений в этом релизе.