Nhóm Qwen của Alibaba đã công bố Qwen-Robot Suite vào thứ Ba, một bộ gồm ba mô hình nền tảng được thiết kế để cung cấp điều hướng robot, thao tác và mô phỏng thế giới dựa trên vật lý thông qua một ngăn xếp phần mềm thống nhất. Công ty công bố bộ sản phẩm này trên Twitter vào ngày 16/06/2026, định vị công nghệ là “full stack for embodied intelligence” như họ gọi. Alibaba phát triển các mô hình để giải quyết một thách thức cốt lõi trong lĩnh vực robot: trong khi các tác nhân AI hiện dựa vào các mô hình ngôn ngữ lớn để ra quyết định, robot vật lý cần các hệ thống AI tạo sinh có khả năng xử lý các tình huống lỗi dựa trên vật lý thay vì suy luận dựa trên prompt. Việc ra mắt thể hiện chiến lược tích hợp dọc của Alibaba trải dài từ chip, hạ tầng đám mây, mô hình AI đến ứng dụng, với robotics là biểu hiện “vật chất” nhất của việc phát triển AI dạng embodied tại Trung Quốc.
Qwen-Robot Suite bao gồm ba mô hình nền tảng, mỗi mô hình đảm nhiệm một khía cạnh riêng của trí tuệ robot. Qwen-RobotNav xử lý các tác vụ di chuyển và điều hướng. Qwen-RobotManip giải quyết thao tác và tương tác vật lý với các đối tượng. Qwen-RobotWorld mô phỏng các quy luật vật lý giúp cả điều hướng và thao tác. Theo Alibaba, mỗi mô hình hoạt động độc lập trong khi vẫn tạo thành một ngăn xếp phần mềm thống nhất khi được kết hợp. Công ty mô tả kiến trúc là lớp hệ điều hành cho robotics thay vì phần cứng.
Qwen-RobotNav hợp nhất năm tác vụ điều hướng trong cùng một mô hình: làm theo chỉ dẫn, điều hướng đến điểm mục tiêu, tìm kiếm đối tượng, theo dõi mục tiêu và lái xe tự hành. Mô hình cung cấp một giao diện có thể tham số hóa với ngân sách token có thể cấu hình, hệ số suy giảm theo thời gian và trọng số theo từng camera mà một bộ lập kế hoạch có thể điều chỉnh lại trong quá trình vận hành. Alibaba huấn luyện mô hình trên 15,6 triệu mẫu với ngẫu nhiên hóa trên tất cả các tham số.
Qwen-RobotManip giải quyết thách thức về các biểu diễn hành động không tương thích giữa các nền tảng robot khác nhau. Cánh tay Franka vận hành thông qua các góc khớp, trong khi robot ALOHA biểu diễn hành động bằng vị trí và hướng của bộ gắp. Robot hình người sử dụng tọa độ toàn thân. Alibaba đã tổng hợp xấp xỉ 38.100 giờ dữ liệu huấn luyện từ các bộ dữ liệu robot mã nguồn mở và video của con người để bắc cầu giữa các không gian hành động không tương thích này.
Qwen-RobotWorld hoạt động như một mô hình thế giới video được điều kiện theo ngôn ngữ, coi ngôn ngữ tự nhiên là một giao diện hành động phổ quát. Mô hình xử lý các lệnh như “Pick up the red cup and pour water on the flower” (Cầm cốc đỏ và rót nước lên bông hoa) trên nhiều kiểu robot khác nhau, bao gồm bộ gắp, xe tự hành và tác nhân điều hướng di động. Tập hợp Embodied World Knowledge có phạm vi 8,6 triệu cặp video-văn bản, tổng cộng 200 triệu khung hình cho các kịch bản thao tác, lái xe tự hành, điều hướng trong nhà và chuyển giao từ người sang robot.
Qwen-RobotNav đạt tỷ lệ thành công 76,5% trên VLN-CE RxR, một chuẩn mực cho điều hướng tầm nhìn-ngôn ngữ trong môi trường thực tế. Mô hình cũng đạt hiệu suất theo dõi 90% trên EVT-Bench, đánh giá khả năng của tác nhân trong việc nhất quán theo dõi các mục tiêu đang di chuyển.
Qwen-RobotManip xếp thứ nhất trên RoboChallenge Table30-v1, vượt các cách tiếp cận trước đó 20%. Hiệu suất của mô hình đến từ chiến lược căn chỉnh theo hướng “alignment-first” cho huấn luyện xuyên dạng cơ thể.
Qwen-RobotWorld xếp thứ nhất trên EWMBench và DreamGen Bench, hai chuẩn mực đánh giá liệu mô hình thế giới có dự đoán và tạo ra các môi trường vật lý thực tế hay không. Mô hình vượt qua tất cả mô hình mã nguồn mở trên WorldModelBench và PBench. Alibaba cho biết mô hình đạt điểm tuyệt đối trong các bài kiểm tra tuân thủ vật lý bao gồm định luật Newton, bảo toàn khối lượng, động lực học chất lỏng và trọng lực.
Alibaba huấn luyện Qwen-RobotNav trên 15,6 triệu mẫu với ngẫu nhiên hóa trên các tham số điều hướng. Công ty không công bố các bộ dữ liệu nguồn cụ thể cho huấn luyện điều hướng.
Đối với Qwen-RobotManip, Alibaba tổng hợp xấp xỉ 38.100 giờ dữ liệu huấn luyện từ các bộ dữ liệu robot mã nguồn mở và video của con người. Công ty cho biết họ không dựa vào việc thu thập dữ liệu độc quyền cho huấn luyện mô hình thao tác.
Tập hợp Embodied World Knowledge của Qwen-RobotWorld chứa 8,6 triệu cặp video-văn bản trải rộng 200 triệu khung hình. Tập dữ liệu gồm 5,9 triệu mẫu thao tác, bao phủ 1.300+ kỹ năng trên 20+ dạng hình thái robot. Dữ liệu lái xe tự hành đến từ các bộ Waymo, NVIDIA PhysicalAI-AD và Bench2Drive. Dữ liệu điều hướng trong nhà bắt nguồn từ VLNVerse. Dữ liệu chuyển giao từ người sang robot bao phủ 14 cánh tay robot.
Alibaba cho biết việc triển khai robot ngoài thực tế vẫn còn nhiều năm nữa. Công ty thừa nhận khoảng cách giữa các môi trường trình diễn được kiểm soát và vận hành đáng tin cậy trong thực tế. RoboCasa365, LIBERO-Plus và RoboTwin-Clean2Rand là các chuẩn mô phỏng thay vì các kịch bản triển khai trong thế giới thực. Việc triển khai ngoài thực tế đưa vào nhiễu cảm biến, hiện tượng trôi cơ cấu chấp hành và các trường hợp biên mà Alibaba nhận định là những thách thức đang tiếp diễn.
Các mô hình là hệ thống phần mềm được thiết kế để chạy trên phần cứng từ các nhà sản xuất bao gồm AgileX, Franka, Universal Robots và Unitree. Alibaba chưa công bố giá, mốc thời gian triển khai cụ thể, hay những khách hàng nào sẽ có quyền truy cập ngoài các chương trình thử nghiệm.
Alibaba đã công bố điều gì vào ngày 16/06/2026?
Nhóm Qwen của Alibaba đã công bố Qwen-Robot Suite vào thứ Ba, ngày 16/06/2026, gồm ba mô hình nền tảng: Qwen-RobotNav cho điều hướng, Qwen-RobotManip cho thao tác và Qwen-RobotWorld cho mô phỏng thế giới dựa trên vật lý. Công ty định vị bộ giải pháp này như một ngăn xếp phần mềm thống nhất cho “embodied intelligence” trong robotics.
Các mô hình Qwen-Robot đã đạt kết quả gì trên các bộ chuẩn?
Qwen-RobotNav đạt 76,5% thành công trên VLN-CE RxR và 90% trên EVT-Bench. Qwen-RobotManip xếp thứ nhất trên RoboChallenge Table30-v1, vượt các cách tiếp cận trước đó 20%. Qwen-RobotWorld xếp thứ nhất trên EWMBench, DreamGen Bench, WorldModelBench và PBench trong số các mô hình mã nguồn mở, với điểm tuyệt đối trong các bài kiểm tra tuân thủ vật lý.
Khi nào các mô hình Qwen-Robot sẽ được triển khai trên robot ngoài thực tế?
Alibaba cho biết việc triển khai robot ngoài thực tế vẫn còn nhiều năm nữa. Công ty chưa công bố các mốc thời gian triển khai cụ thể, giá cả hay những khách hàng nào sẽ có quyền truy cập ngoài các chương trình thử nghiệm.
Tin tức liên quan
SpaceX nộp Mẫu 8-K nêu chi tiết việc sử dụng tiền thu được từ IPO cho AI và vệ tinh
Cottonia bắt tay với Matrix để tích hợp phân tích AI trên BNB Chain
CEO Qualcomm: Trình tác vụ AI sẽ thay thế ứng dụng khi hơn 40 thiết bị mới ra mắt
VARA yêu cầu các công ty crypto tại Dubai theo dõi danh sách đen FATF trong hướng dẫn AML năm 2026
Mô hình Rio 3.5 của IplanRIO được chứng minh là Nex Weight Merge trong tranh chấp về phân bổ quyền quy chiếu