
Команда Qwen від Alibaba 17 червня опублікувала Qwen-Robot Suite — набір для втіленого інтелекту end-to-end, що складається з трьох базових моделей: Qwen-RobotNav (мобільна навігація), Qwen-RobotManip (маніпуляції роботом) та Qwen-RobotWorld (моделювання фізичного світу). Усі три моделі вже відкрито доступні.
Qwen-RobotNav: п’ять завдань уніфіковано, 15,6 млн одиниць навчальних даних
Qwen-RobotNav об’єднує п’ять задач: виконання інструкцій, навігацію до цілі, пошук об’єктів, відстеження цілей і автономне керування. Модель надає параметризований інтерфейс (бюджет токенів, часовий коефіцієнт затухання, ваги для кожного кадру). Модель навчали на 15,6 млн зразків; на базовому тесті VLN-CE RxR (навігація за візуальними даними та мовою в реальному середовищі) досягнуто точності 76,5%, а на EVT-Bench (відстеження рухомої цілі) — 90%.
Qwen-RobotManip: 38,1 тис. годин навчальних даних, RoboChallenge Table30-v1 — перше місце
Способи подання дій у різних роботів суттєво відрізняються (маніпулятор Franka використовує кутові значення суглобів, ALOHA — позицію та напрямок клешнів, гуманоїд — координати всієї системи). Alibaba зібрала шляхом синтезу навчальні дані приблизно на 38,1 тис. годин із відкритих баз даних робото-даних і людських відео, без опори на приватний збір даних. На базовому тесті RoboChallenge Table30-v1 модель посіла перше місце, випередивши попередні підходи на 20%.
Qwen-RobotWorld: 8,6 млн відеоприкладів текстових пар, перші місця на EWMBench і DreamGen Bench
Qwen-RobotWorld — це відеомодель світу з мовним умовним входом: природну мову використовують як універсальний інтерфейс команд до дій. Наприклад, команда «візьми червону чашку та налий воду на квіти» однаково підходить для агентів із клешнями, для самокерованих авто чи агентів із мобільною навігацією. Навчальний корпус охоплює 8,6 млн відео з текстовими відповідниками та 200 млн кадрів; розробка включає керування (5,9 млн зразків, 1,3 тис.+ навичок, 20+ форм), автономне керування (Waymo, NVIDIA PhysicalAI-AD), навігацію в приміщеннях, а також перенесення людино-роботного керування між 14 типами механічних рук. На EWMBench і DreamGen Bench обидві базові перевірки завершилися першим місцем, а тест на фізичну узгодженість — з повним балом.
Офіційне пояснення Qwen: це програмні моделі, а не фізичні роботи; ціни та графік запуску ще не опубліковано
Згідно з поясненням на офіційному блозі Qwen, Qwen-Robot Suite — це програмні моделі, а не фізичні роботи; для реального розгортання в домашніх сценаріях потрібні ще кілька років. Наразі Alibaba не оголошувала ціни, графік або список клієнтів для пілотних проєктів поза експериментальним оголошенням. Західні лабораторії, зокрема Google DeepMind, Nvidia, Figure та Physical Intelligence, теж прагнуть подібних цілей, але в повідомленнях зазначають, що більшість зосереджується на окремих можливостях навігації або маніпуляцій, а не на уніфікованому конструкторському наборі.
Поширені запитання
На які сценарії окремо спрямовані три моделі Qwen-Robot Suite?
Згідно з офіційним блогом Qwen, призначення трьох моделей таке: Qwen-RobotNav відповідає за мобільну навігацію (п’ять уніфікованих завдань); Qwen-RobotManip відповідає за механічні маніпуляції між різними роботами (сумісний із різними способами подання дій); Qwen-RobotWorld відповідає за моделювання фізичного світу (мова як універсальний інтерфейс дій). Кожна з трьох моделей є незалежною, а разом вони утворюють end-to-end стек втіленого інтелекту.
Чи визначення «Android-момент для роботів» — це твердження саме Qwen?
Так. «Android-момент у сфері роботів» — це формулювання, яке Alibaba Qwen використала під час оголошення, маючи на увазі, що Qwen-Robot Suite є платформою на рівні операційної системи, а не апаратним забезпеченням. Це ринкове позиціонування Qwen, а не оцінка сторонніх організацій.
Чи відкрито Qwen-Robot Suite для зовнішнього доступу?
Згідно з офіційним блогом Qwen, усі три моделі повністю відкриті для спільноти. Навчальні дані Alibaba створені на основі відкритих баз даних робото-даних і людських відео; вони не спираються на приватний збір даних. Відкритий підхід є одним із ключових повідомлень цього релізу.