
ทีม Qwen ของ Alibaba เผยแพร่ Qwen-Robot Suite เมื่อวันที่ 17 มิถุนายน ซึ่งเป็นระบบปัญญาเชิงกายภาพแบบ end-to-end ที่ประกอบด้วยโมเดลพื้นฐาน 3 ตัว ได้แก่ Qwen-RobotNav (นำทางการเคลื่อนที่) , Qwen-RobotManip (ควบคุมการทำงานด้วยหุ่นยนต์) , Qwen-RobotWorld (การจำลองโลกทางฟิสิกส์) ทั้ง 3 โมเดลเปิดซอร์สแล้ว
Qwen-RobotNav รวมงานสั่งการตามคำสั่ง การนำทางไปยังจุดหมาย การค้นหาออบเจ็กต์ การติดตามเป้าหมาย และการขับเคลื่อนแบบอิสระ 5 งาน โดยให้อินเทอร์เฟซที่ปรับพารามิเตอร์ได้ (งบประมาณ token, time decay, ค่าน้ำหนักต่อกล้อง) โมเดลถูกฝึกบนตัวอย่าง 15,600,000 รายการ ในเกณฑ์ VLN-CE RxR (การนำทางด้วยภาพและภาษามาจากสภาพแวดล้อมจริง) ทำได้ 76.5% และในเกณฑ์ EVT-Bench (การติดตามเป้าหมายที่เคลื่อนที่) ทำได้ 90%
รูปแบบการแสดงท่าทางของหุ่นยนต์แต่ละแบบแตกต่างกันอย่างชัดเจน (แขนกล Franka ใช้มุมข้อต่อ, ALOHA แบบสองแขนใช้ตำแหน่งและทิศทางของกริปเปอร์, หุ่นยนต์ทรงมนุษย์ใช้พิกัดทั้งร่างกาย) Alibaba สังเคราะห์ข้อมูลฝึกราว 38,100 ชั่วโมงจากคลังข้อมูลหุ่นยนต์แบบเปิดซอร์สและวิดีโอของมนุษย์ โดยไม่พึ่งพาการเก็บข้อมูลแบบปิด โมเดลได้อันดับ 1 ในเกณฑ์ RoboChallenge Table30-v1 เอาชนะวิธีการก่อนหน้าได้ 20%
Qwen-RobotWorld เป็นโมเดลโลกของวิดีโอที่ใช้ภาษาเป็นเงื่อนไข โดยนำภาษาธรรมชาติเป็นอินเทอร์เฟซการกระทำแบบสากล: คำสั่งอย่าง “ยกแก้วสีแดงแล้วเทน้ำลงบนดอกไม้” ใช้ได้กับเอเจนต์ทั้งแบบกริปเปอร์ รถขับเคลื่อนอัตโนมัติ หรือเอเจนต์นำทางการเคลื่อนที่ การฝึกมีคอร์ปัสคำบรรยายวิดีโอคู่ภาษา 8.6 ล้านรายการ และ 2,00000000 เฟรม ครอบคลุมการควบคุม (5.9 ล้านตัวอย่าง, 1,300+ ทักษะ, 20+ รูปแบบ) การขับเคลื่อนอัตโนมัติ (Waymo, NVIDIA PhysicalAI-AD) การนำทางในอาคาร และการถ่ายโอนแบบข้าม 14 ประเภทของแขนกลไปสู่การโต้ตอบระหว่างคนกับหุ่นยนต์ ทั้งการทดสอบมาตรฐาน EWMBench และ DreamGen Bench ได้อันดับ 1 และการทดสอบความสอดคล้องทางฟิสิกส์ได้คะแนนเต็ม
ตามคำอธิบายของบล็อกทางการของ Qwen Qwen-Robot Suite เป็นโมเดลซอฟต์แวร์ ไม่ใช่หุ่นยนต์กายภาพ การนำไปใช้งานในสถานการณ์แบบในบ้านจริงยังต้องใช้เวลาอีกหลายปี Alibaba ยังไม่ประกาศราคา ไทม์ไลน์ หรือรายชื่อมุ่งทดลอง (pilot) นอกเหนือจากลูกค้าที่เป็นทางการ ปัจจุบันห้องปฏิบัติการฝั่งตะวันตกอย่าง Google DeepMind, Nvidia, Figure และ Physical Intelligence ก็พยายามไปสู่เป้าหมายที่คล้ายกันเช่นกัน แต่รายงานระบุว่าส่วนใหญ่โฟกัสความสามารถแบบเฉพาะด้าน เช่น การนำทางหรือการควบคุม มากกว่าจะเป็นชุดเดียวที่ประกอบใช้งานได้อย่างเป็นเอกภาพ
ตามบล็อกทางการของ Qwen การกำหนดบทบาทของทั้ง 3 โมเดลคือ: Qwen-RobotNav รับผิดชอบการนำทางการเคลื่อนที่ (รวม 5 งานไว้ด้วยกัน) ; Qwen-RobotManip รับผิดชอบการควบคุมเชิงกลแบบข้ามหุ่นยนต์ (รองรับรูปแบบการแทนท่าทางที่แตกต่างกัน) ; Qwen-RobotWorld รับผิดชอบการจำลองโลกทางฟิสิกส์ (ภาษาเป็นอินเทอร์เฟซการกระทำแบบสากล) โมเดลทั้ง 3 แยกกันทำงานอิสระ และรวมกันแล้วเป็นระบบปัญญาเชิงกายภาพแบบ end-to-end
ใช่ “ช่วงเวลาของ Android ในสายงานหุ่นยนต์” เป็นคำอธิบายเชิงตำแหน่งที่ Alibaba Qwen ใช้ตอนเปิดตัว หมายความว่า Qwen-Robot Suite เป็นแพลตฟอร์มระดับระบบปฏิบัติการ ไม่ใช่ฮาร์ดแวร์ นี่คือถ้อยคำด้านการวางตำแหน่งของ Qwen ในเชิงการตลาด ไม่ใช่การจัดอันดับจากบุคคลที่สาม
ตามบล็อกทางการของ Qwen โมเดลทั้ง 3 ตัวเปิดซอร์สและเผยแพร่ทั้งหมด ข้อมูลฝึกของ Alibaba มาจากคลังข้อมูลหุ่นยนต์แบบเปิดซอร์สและวิดีโอของมนุษย์ โดยไม่พึ่งพาการเก็บข้อมูลแบบปิด กลยุทธ์การเปิดซอร์สคือหนึ่งในสาระสำคัญของการเปิดตัวครั้งนี้
news.related.news
Microsoft เปิดตัว Copilot Cowork ให้ใช้งานทั่วโลกสำหรับการทำงาน AI ขององค์กร
SpaceX ทุ่มงบ 60 พันล้านดอลลาร์เพื่อซื้อ Cursor ทำให้มูลค่าตลาดพุ่งแซง Microsoft ชั่วคราว
Google Android 17 เปิดตัวอย่างเป็นทางการแล้ว โดย Gemini Intelligence จะเริ่มรองรับในช่วงซัมเมอร์นี้
สำนักข่าวต่างประเทศเปิดเผย: OpenAI จะเปิดตัว GPT-5.6 ในวันที่ 23 มิถุนายน โดยมีราคาประเมินต่ำกว่าคลาวด์ เฟเบิล 5 อย่างมาก
Alibaba เปิดตัวชุด Qwen-Robot: โมเดล AI 3 ตัวเพื่อความฉลาดของหุ่นยนต์