Zhitri GE-Sim 2.0: Dùng World Model để tạo ra thế giới, đối thủ của Yushu thúc đẩy robot hình người tiến tới tự tiến hóa

ChainNewsAbmedia

Trí tuệ thể hiện (Embodied AI) đang bước vào một bước ngoặt quan trọng. Gần đây, công ty robot Zhiren (Trí Nguyên) của Trung Quốc đã công bố Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), với tham vọng đưa World Model (mô hình thế giới) từ công cụ chỉ dùng để hiểu môi trường, tiến lên thành bộ mô phỏng thế giới (World Simulator) có thể trực tiếp vận hành, huấn luyện và tối ưu hóa robot.

Nếu bạn vẫn chưa hiểu việc này quan trọng đến mức nào, hãy xem trước những “điểm yếu cố hữu” của kiến trúc LLM: Về mặt logic huấn luyện, LLM hiện tại chỉ dự đoán ngữ cảnh dựa trên một lượng lớn dữ liệu văn bản. Nó có thể biết rằng các từ như “táo rơi xuống” thường đi cùng với nhau, nhưng lại không thật sự hiểu mối quan hệ nhân quả của trọng lực hay thế giới vật lý.

Đó là lý do vì sao các nhà khoa học như Yang LeCun và Li Fei-Fei cũng dấn thân vào cuộc đua World Model: khi AI có khả năng hiểu môi trường 3D và dự đoán vật lý, công nghệ này sẽ trở thành “não kỹ thuật số” cho các robot tự chủ, xe tự lái và sản xuất thông minh—tức “AI vật lý” (Physical AI). Vì vậy, lộ trình của World Model cho rằng robot sẽ là một nền tảng mang tính then chốt. Hiện nay, các nhà sản xuất robot humanoid quy mô đầy đủ đã bước vào cuộc chơi như Zhiren Robotics, tượng trưng cho lực lượng tiên phong của Trung Quốc trong cuộc “ngược dòng” từ phần cứng.

Trước đó, Chủ tịch Tập đoàn TSMC, Ngụy Triết Gia, từng nói: Nếu nhìn Trung Quốc đại lục cứ làm robot nhảy qua nhảy lại, nhảy tưng tưng. Cái đó không hữu ích, chỉ để trông cho vui. Ông ấy nhấn mạnh điểm mấu chốt là phải để “bộ não” của robot vận hành được; còn bộ não do ai làm? NVIDIA (Nvidia), AMD (AMD) và một loạt công ty của Mỹ làm, nhưng 95% bộ não là do TSMC sản xuất. Nút thắt trong quá trình phát triển GE-Sim 2.0 vẫn nằm ở đó, gắn chặt với sự phát triển mô hình của Trung Quốc.

Lộ trình World Model cho rằng robot là then chốt

LLM chủ đạo hiện nay dựa vào lượng lớn dữ liệu văn bản và các quan hệ thống kê để hiểu ngữ cảnh, đồng thời dự đoán từ kế tiếp. Nó có thể biết các từ như “táo rơi xuống” thường xuất hiện cùng nhau, nhưng không thật sự hiểu mối quan hệ nhân quả của trọng lực hay thế giới vật lý.

Kiểu mô hình này thể hiện rất tốt trong tạo sinh văn bản, hỗ trợ lập trình hoặc các tác vụ hỏi đáp. Tuy nhiên, trong các tình huống cần hiểu cấu trúc thế giới thực, suy luận quan hệ nhân quả và lập kế hoạch dài hạn, nó vẫn tồn tại những giới hạn căn bản. Vấn đề lớn hơn nữa là nguồn dữ liệu đang dần cạn kiệt. Việc huấn luyện LLM phụ thuộc rất nhiều vào dữ liệu chất lượng cao từ con người, và trong những năm gần đây ngành công nghiệp đã bắt đầu cảnh báo rằng lượng dữ liệu văn bản do con người tạo ra có thể sẽ bị tiêu hao gần như hết trong vài năm tới. Khi đó, giống như cận huyết có thể gây ra khiếm khuyết di truyền, cuối cùng khiến mô hình dần lệch khỏi thực tế và xuất hiện suy giảm hiệu năng.

(Phân tích chuyên sâu: LLM có khiếm khuyết? Vì sao Yang LeCun đặt cược vào lộ trình AMI World Model)

Đó cũng là lý do tại sao trong những năm gần đây, hai nhân vật nặng ký trong giới nghiên cứu AI là Yang LeCun và Li Fei-Fei (người được gọi là “Mẹ đỡ đầu của AI”) đều lựa chọn đặt cược vào kiến trúc AI thế hệ mới được gọi là World Model (mô hình thế giới).

Từng có lần, tác giả bài viết đã nói: Xét rộng hơn, khi AI có khả năng hiểu môi trường 3D và năng lực dự đoán vật lý, thì công nghệ này sẽ trở thành “bộ não kỹ thuật số” cho robot tự chủ, xe tự lái và sản xuất thông minh—tức “AI vật lý” (Physical AI). Vì vậy, lộ trình của World Model cho rằng robot sẽ là một nền tảng mang tính then chốt. Ngày nay, khi các nhà sản xuất robot humanoid quy mô đầy đủ như Zhiren Robotics bước vào cuộc chơi, điều đó tượng trưng cho lực lượng tiên phong của Trung Quốc trong cuộc “đảo chiều” nhờ phần cứng.

Trước đó, Chủ tịch TSMC Ngụy Triết Gia, khi nói về sự phát triển của robot và chất bán dẫn, đã thẳng thắn rằng nếu nhìn Trung Quốc đại lục cứ làm robot nhảy qua nhảy lại, nhảy tưng tưng, thì cái đó không hữu ích—chỉ để trưng cho đẹp. Ông ấy cho rằng mấu chốt là phải để “bộ não” của robot có thể hoạt động; còn bộ não do ai làm, thì là NVIDIA (Nvidia), AMD (AMD) và vô số công ty của Mỹ, nhưng 95% bộ não là do TSMC sản xuất.

(Ngụy Triết Gia của TSMC châm biếm: Robot của Trung Quốc nhảy tưng tưng, chỉ để trông cho đẹp—không có ích! Mấu chốt vẫn đến từ )

Tiến hóa của World Model: từ hiểu thế giới, đến học tập trong chính thế giới đó

Trong vài năm qua, World Model luôn được xem là công nghệ then chốt giúp AI hiểu thế giới thực. Thông qua hình ảnh, ngôn ngữ và dữ liệu cảm biến, mô hình có thể dự đoán sự thay đổi của môi trường, từ đó giúp robot có năng lực ra quyết định cơ bản.

Nhưng bước đột phá cốt lõi của GE-Sim 2.0 không chỉ là hiểu thế giới, mà là học và hệ thống hành động được đưa vào trong “thế giới được tạo ra bởi mô hình”. Hành động (Action) trở thành một biến số trọng tâm; từ việc dự đoán trạng thái truyền thống, nó nâng cấp thành một vòng lặp hoàn chỉnh:

State

Action

State Evolution

Điều này có nghĩa là robot không còn chỉ quan sát và phản hồi, mà có thể chủ động thử sai trong môi trường mô phỏng, tự tối ưu hóa và học liên tục. Sự thay đổi này khiến World Model tiến hóa từ “mô hình nhận thức” thành “hạ tầng huấn luyện”.

GE-Sim 2.0: Giúp robot “tiến hóa” trong thế giới ảo

GE-Sim 2.0 được định nghĩa là một bộ “bộ mô phỏng thế giới thể hiện”, với mục tiêu cốt lõi là giải quyết ba nút thắt lớn của huấn luyện ngoài thực tế: chi phí quá cao, thiếu dữ liệu, và khó mở rộng quy mô. Bằng cách tạo ra môi trường từ mô hình, hệ thống có thể huấn luyện robot với quy mô lớn mà không cần phụ thuộc vào thế giới thực.

Về mặt kỹ thuật, GE-Sim 2.0 tích hợp ba năng lực then chốt: đầu tiên là “tạo hình ảnh dựa trên hành động”, mô hình có thể tạo ra các khung hình tương lai tương ứng dựa theo hành động của robot và duy trì tính nhất quán đa góc nhìn, bao gồm góc nhìn từ đầu và góc nhìn thao tác của tay trái lẫn tay phải.

Thứ hai là mô hình hóa cảm nhận bản thể (proprioception), không chỉ mô phỏng hình ảnh bên ngoài, mà còn có thể dự đoán trạng thái khớp và động tác của chính robot, khiến việc ra quyết định gần với thế giới vật lý thực hơn.

Thứ ba là “đánh giá nhiệm vụ tự động”; thông qua reward model (mô hình phần thưởng) được tích hợp sẵn, hệ thống có thể tự động xác định nhiệm vụ có hoàn thành hay không, ví dụ như “đặt vật màu xanh vào hộp màu đỏ”, đồng thời đưa ra phản hồi, trực tiếp dùng cho học tăng cường. Điều này cho phép robot hoàn thành vòng khép kín hoàn chỉnh trong môi trường mô phỏng:

GE-Sim 2.0 đã có thể tạo video ổn định ở cấp độ “phút”

So với các mô hình trước đó chỉ có thể tạo các đoạn video ngắn, GE-Sim 2.0 đã đạt được khả năng tạo video ổn định ở cấp độ “phút”, hỗ trợ mô phỏng nhiệm vụ trong thời gian dài. Đồng thời, nhờ huấn luyện bằng dữ liệu thật quy mô lớn (dữ liệu thao tác từ xa, triển khai và tương tác), mô hình có năng lực khái quát hóa mạnh hơn giữa các tình huống và nhiệm vụ khác nhau. Điểm này đặc biệt quan trọng đối với robot hình người: vì thao tác trong thế giới thực biến đổi cực kỳ đa dạng, không thể chỉ dựa vào huấn luyện với các tình huống cố định.

Sự xuất hiện của World Simulator có nghĩa là robot có thể “luyện tập vô hạn” trong thế giới ảo, điều này sẽ mang lại hai thay đổi mang tính cấu trúc: thứ nhất, chi phí huấn luyện giảm đáng kể; thứ hai, tốc độ lặp cải thiện năng lực tăng theo cấp số nhân.

Robot Zhiren (Trí Nguyên): Lực lượng mới trong lĩnh vực robot hình người của người Trung Quốc

Robot Zhiren được thành lập vào năm 2023, do “Thiên tài trẻ” của Huawei là Bành Chí Huy sáng lập, tập trung vào lĩnh vực trí tuệ thể hiện (embodied intelligence) kết hợp AI và robot.

Sản phẩm cốt lõi của công ty bao gồm:

Loạt robot hình người “Viễn chinh”

Hệ thống robot “Linh Tích” (Lingxi)

Mô hình nền tảng đa dụng GO-1

Hiện tại đã hoàn tất nhiều vòng gọi vốn, và nhận được đầu tư từ các tổ chức như Sequoia China và Tập đoàn quản lý tài sản Gaoling Capital (Gаoling Capital), được xem là một trong những người chơi quan trọng trong lĩnh vực robot hình người của Trung Quốc, tạo thế cạnh tranh với Unitree Technology.

Bài viết này Trí tuệ GE-Sim 2.0 của Zhiren: Dùng World Model để tạo ra thế giới, đối thủ của Unitree sẽ đẩy robot hình người hướng tới tự tiến hóa Xuất hiện sớm nhất tại 链新闻 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận