Các nhà lãnh đạo ngành tại Hội nghị Bắc Kinh Zhiyuan đã tranh luận về lo ngại các mô hình AI bị “đồng nhất hóa”, khi thành tích đánh giá của các mô hình hàng đầu ngày càng hội tụ và khoảng cách giữa mô hình mã nguồn mở lẫn mã nguồn đóng được cho là chỉ còn 3-6 tháng. Ông Chen Weiguang, Đối tác Quản lý tại Bluerun Ventures; ông Wang Zhongyuan, Giám đốc Viện Nghiên cứu Zhiyuan; ông Wang He, nhà sáng lập kiêm Giám đốc Công nghệ (CTO) Galaxy General; và ông Li Dahai, CEO MiniMax đã thảo luận về các nguồn giá trị dài hạn trong kỷ nguyên mô hình lớn. Tại phiên thảo luận, họ đề cập liệu các mô hình AI và ngành “trí tuệ được hiện thân” (embodied intelligence) có đang tiến tới sự đồng nhất hóa hay không, và lợi thế cạnh tranh bền vững nằm ở đâu. Giới quan sát cho rằng nhân tài là then chốt trong cuộc cạnh tranh AI Mỹ-Trung, trong đó embodied intelligence là cơ hội của Trung Quốc để tạo ra những bước đột phá tương đương các “khoảnh khắc” như AlphaGo và ChatGPT.
Wang Zhongyuan cho biết, dù các bảng xếp hạng của nhiều “ông lớn” mô hình lớn khiến người ta hoa mắt và bản thân thứ hạng không hoàn toàn đáng tin cậy, thì các công ty mô hình dám thực hiện demo trực tiếp và bước vào kịch bản thế giới thực lại thể hiện sự tự tin và có thể tìm ra các “vòng khép kín” dữ liệu trong bối cảnh thực tế. Ông nói rằng nhìn chung, việc lặp cải tiến hiệu năng của mô hình lớn vẫn còn rất xa với điểm nghẽn, các lộ trình kỹ thuật chưa hội tụ, và tương lai có thể xuất hiện nhiều mô hình khác nhau, bao gồm “một siêu quyền lực với nhiều tay chơi mạnh” hoặc “nhiều gã khổng lồ đứng cạnh nhau”. Ông cho rằng các tuyên bố ngành sẽ tiến tới đồng nhất hóa là quá sớm.
Nhà sáng lập Galaxy General Wang He mở rộng cuộc thảo luận từ mô hình ngôn ngữ lớn sang embodied intelligence. Ông cho biết chính các mô hình ngôn ngữ lớn vẫn có nhiều biến số, trong đó khả năng hiểu đa phương thức và video còn bất định hơn. Ông mô tả embodied intelligence hiện ở “giai đoạn từ GPT-1 đến GPT-2”, và ngành hiện vừa bước vào thời kỳ tăng tốc.
Wang He mô tả “hào quang” cạnh tranh của embodied intelligence như một hệ thống hoàn chỉnh bao gồm: nguồn cung dữ liệu (dữ liệu tổng hợp, dữ liệu con người, dữ liệu robot), năng lực tinh luyện dữ liệu, lặp đi lặp lại phần cứng và đồng thiết kế phần mềm-phần cứng, năng lực hợp nhất thông lượng mô hình, và năng lực cung cấp phần cứng cuối cùng. Ông gọi đây là một hệ thống “chiến binh hình lục giác”, nói rằng chưa có sản phẩm trưởng thành thuộc dạng này tồn tại trên toàn thế giới và “hào” vẫn cực kỳ sâu.
CEO MiniMax Li Dahai dẫn thành công thương mại của Anthropic như một bằng chứng trực tiếp phản bác đồng nhất hóa. Ông cho biết mô hình lớn không thể chỉ là kiểu “tài năng chữ T” với năng lực ngang chung, mà còn phải có thế mạnh dọc. Li giải thích rằng Anthropic trở thành hiện tượng toàn cầu vì công ty đã xây dựng năng lực lập trình ở mức độ chưa từng có trên nền tảng mô hình tổng quát của mình, qua đó hỗ trợ định giá cao và hiệu năng thương mại ấn tượng.
Li cho biết các mô hình lớn đang nội hóa vào quá trình tiến hóa hệ thống thay vì chỉ là một điểm kỹ thuật rời rạc. Ông nói rằng tối ưu hóa mô hình trong tương lai phải phối hợp sâu với các kịch bản ứng dụng, so sánh với thiết kế động cơ phải phối hợp với cả chiếc xe, nơi hướng tối ưu hoàn toàn khác nhau giữa xe đua F1 và xe đi mua đồ tạp hóa. Ông nói rằng tính phổ quát kỹ thuật và tính phổ quát thương mại phải được tách bạch; để thương mại hóa tốt cần tối ưu mô hình cực kỳ bám sát theo từng kịch bản, từ đó mỗi công ty có thể tự tạo “hào” riêng bằng cách tìm đúng hướng đi.
Wang He chia sẻ thực tiễn của Galaxy General với mô hình WAM (World Action Model). Trước khi mô hình WAM xuất hiện, Galaxy General đã dùng 1 tỷ khung dữ liệu mô phỏng để kiểm chứng khả năng mở rộng đối với kỹ năng nắm bắt. Công ty phát triển GRASP-VLA nhằm đạt khả năng nắm bắt zero-shot các vật thể tùy ý, với không có mô hình nào dựa vào dữ liệu teleoperation thực đạt mức hiệu năng tương đương cho tới nay.
Wang giải thích rằng sự xuất hiện của mô hình WAM đã hoàn toàn phá vỡ “nút thắt dữ liệu” đối với embodied intelligence. Các mô hình truyền thống VLA cần dữ liệu có nhãn hành động và chỉ có thể dựa vào dữ liệu robot. WAM tập trung vào Action làm lõi, thực hiện lập kế hoạch hành động ở mức hình ảnh thông qua dự đoán tương lai mà không cần nhãn hành động. Điều này có nghĩa robot có thể học trực tiếp logic hành vi từ các video của con người, và lượng lớn dữ liệu video con người trở thành tài liệu huấn luyện.
Wang cho biết Galaxy General đã công bố bài báo WAM đầu tiên trên thế giới vào tháng 3 năm 2025, và đến tháng 4, Giám đốc Phòng thí nghiệm Embodied Intelligence của NVIDIA là Jim Fan cho biết “đích đến” của robot là WAM. Ông mô tả pre-training embodied intelligence đang bước vào thời kỳ bùng nổ với không bị giới hạn trong việc thu thập dữ liệu. Ông nói rằng trong 2 năm tới, embodied intelligence sẽ hoàn toàn bước vào “thời điểm GPT-3.5”, với vé vào là hàng chục triệu giờ dữ liệu chất lượng cao và đầu tư vốn hàng tỷ.
Wang Zhongyuan tiết lộ rằng các cuộc thảo luận của ngành năm ngoái về thất bại Scaling Law xuất phát từ nỗi lo “dữ liệu tiền huấn luyện từ internet đã cạn”. Trong 2 năm qua, sau huấn luyện, tối ưu hóa reasoning và Agent tự tiến hóa đệ quy đã tạo ra một làn sóng cải tiến năng lực mới. Wang cho biết điều này không nhất thiết là mức tăng tham số trong chính các mô hình, mà là cả hệ thống ngày càng có năng lực hơn, khi AI chuyển từ công cụ chat sang công cụ thực thi.
Với vai trò là một viện nghiên cứu, Zhiyuan đang tìm kiếm đường cong tăng trưởng trí tuệ kế tiếp. Trong 2 năm qua, viện đã xác minh mô hình scaling trong lĩnh vực đa phương thức, với chuỗi Wujie Emu3 sử dụng dưới 1% dữ liệu đa phương thức và đã thể hiện cải thiện hiệu năng rõ ràng với hàng chục tỷ tham số. Hiện viện đã bắt đầu tiến tới các mô hình nền tảng cho thế giới vật lý, khám phá các lối đi scaling cho world models.
Li Dahai đề xuất “luật mật độ tri thức” của MiniMax: trí tuệ tổng thể của mô hình lớn = mật độ tri thức × số lượng tham số. Ông tiết lộ rằng khi triển khai các mô hình biên cho công ty ô tô vào năm ngoái, họ chỉ đạt 1B tham số, năm nay nâng lên 4B, và năm sau nhiều khả năng sẽ chạm tới hàng chục tỷ. Khi công nghệ lượng tử hóa cải thiện và mật độ tri thức tăng lên, các mô hình mạnh sau lượng tử hóa sẽ chiếm cùng mức tài nguyên như trước, còn việc mở rộng quy mô mô hình biên hiện mới chỉ bắt đầu.
Li cho biết nhiều kết luận theo từng giai đoạn trong ngành có “tuổi thọ” rất ngắn, vì phát triển liên tục lật đổ nhận thức cũ. Ông nói rằng không chỉ mô hình biên còn rất nhiều dư địa tăng trưởng, mà mô hình ngôn ngữ lớn vẫn còn tiềm năng scaling rất xa so với việc đã khai thác hết: xử lý ngữ cảnh dài và tối ưu tiết kiệm năng lượng. Ông cho rằng ngành còn xa mới tới giai đoạn hội tụ.
Wang Zhongyuan cho biết phát triển công nghệ AI đi theo cùng lộ trình như xe tự lái: nhất thiết phải trải qua quá trình từ lo lắng và sợ hãi đến thích nghi và sử dụng, rồi đến việc thiết lập đầy đủ các hệ thống quản trị và cơ chế phân bổ trách nhiệm. Khi công nghệ có thể mang lại cải thiện năng suất gấp 3-5 lần, việc phổ biến sẽ không thể bị chặn lại, và nhân loại—sau khi trải qua nhiều làn sóng công nghệ—sẽ tìm ra các giải pháp quản trị tương ứng.
Li Dahai cho biết xã hội loài người về bản chất được phát triển thông qua “học từ sai lầm”: các quy tắc an toàn máy bay và giới hạn tốc độ trên đường đều mang theo những bài học đau đớn phía sau. Công nghệ AI sẽ cải thiện đáng kể hiệu suất trong việc phát hiện lỗ hổng và khắc phục vấn đề, giảm mạnh chi phí này; ngành đặc biệt coi trọng các chuẩn mực an toàn ngay từ giai đoạn khởi nghiệp và các công ty chủ động đảm nhận trách nhiệm xã hội. Li nói rằng mô hình học từ sai lầm có thể khó tránh khỏi hoàn toàn, và rủi ro an toàn thường xuất hiện từ những chiều không ngờ tới, khiến việc cải tiến luật lệ dựa trên bài học trở thành một thực tế phải đối mặt.
Về lợi thế khác biệt của Trung Quốc trong AI, Wang Zhongyuan nói rằng chuỗi cung ứng của Trung Quốc, lợi thế sản xuất và thị trường nội địa rộng lớn đủ để ươm mầm và xúc tác cho việc triển khai công nghệ mới; embodied intelligence và world models có khả năng là các lĩnh vực nơi Trung Quốc đạt được vị thế dẫn dắt khác biệt.
Wang He khẳng định chắc chắn rằng embodied intelligence là cơ hội của Trung Quốc. Ông bày tỏ niềm tin rằng “AlphaGo moment” và “ChatGPT moment” của embodied intelligence đều sẽ thành hiện thực ở Trung Quốc; ông nói nếu từ 0 lên 1 hoàn thành ở Trung Quốc, thì từ 1 lên 100 chắc chắn sẽ trưởng thành ở Trung Quốc.
Li Dahai bổ sung yếu tố cốt lõi nhất: Trung Quốc sở hữu số lượng lớn nhất các tài năng AI trẻ thông minh nhất trên thế giới, đây là lợi thế nền tảng nhất. Kết hợp với lợi thế chuỗi cung ứng, hệ sinh thái và kịch bản, Trung Quốc chắc chắn sẽ đạt tiến triển đáng kể trong lĩnh vực AI.
Galaxy General nói embodied intelligence đã đạt đến giai đoạn nào?
Nhà sáng lập và CTO Galaxy General Wang He cho biết tại Hội nghị Bắc Kinh Zhiyuan rằng embodied intelligence hiện ở “giai đoạn từ GPT-1 đến GPT-2”, và ngành vừa bắt đầu thời kỳ tăng tốc. Wang nói rằng trong 2 năm tới, embodied intelligence sẽ hoàn toàn bước vào “thời điểm GPT-3.5”, với vé vào là hàng chục triệu giờ dữ liệu chất lượng cao và đầu tư vốn hàng tỷ.
Các thành viên tham gia phiên thảo luận đã phản hồi lo ngại đồng nhất hóa mô hình AI như thế nào?
Giám đốc Viện Nghiên cứu Zhiyuan Wang Zhongyuan cho biết nhìn chung, việc lặp cải tiến hiệu năng của mô hình lớn còn rất xa mới tới điểm nghẽn và các lộ trình kỹ thuật chưa hội tụ; ông mô tả các tuyên bố về đồng nhất hóa là quá sớm. CEO MiniMax Li Dahai dẫn thành công của Anthropic trong năng lực lập trình như bằng chứng rằng công ty có thể tạo khác biệt thông qua thế mạnh dọc. Wang He của Galaxy General mô tả “hào” cạnh tranh của embodied intelligence như một hệ thống hoàn chỉnh bao gồm cung dữ liệu, lặp lại phần cứng và năng lực mô hình, nói rằng không có sản phẩm trưởng thành thuộc dạng này tồn tại trên toàn thế giới.
Phiên thảo luận đã xác định những lợi thế nào cho sự phát triển AI của Trung Quốc?
Các thành viên phiên thảo luận xác định nhiều lợi thế từ Trung Quốc. Wang Zhongyuan cho biết chuỗi cung ứng của Trung Quốc, lợi thế sản xuất và thị trường nội địa rộng lớn đủ để xúc tác việc triển khai công nghệ mới. Li Dahai nói rằng Trung Quốc có số lượng lớn nhất các tài năng AI trẻ thông minh nhất trên thế giới, đây là lợi thế nền tảng nhất. Wang He bày tỏ niềm tin rằng những bước đột phá của embodied intelligence tương đương AlphaGo và ChatGPT sẽ thành hiện thực ở Trung Quốc, và nếu từ 0 lên 1 hoàn thành ở Trung Quốc, thì từ 1 lên 100 chắc chắn sẽ trưởng thành ở Trung Quốc.
Tin tức liên quan
Dan Ives cho biết khả năng sáp nhập SpaceX-Tesla trong vòng một năm là cao
CEO Microsoft Nadella đề xuất khung AI về vốn nhân lực và vốn token
CEO MiniMax: Trí tuệ mô hình Edge ngang bằng GPT-4, công nghệ tác nhân cần thêm thời gian
Giám đốc điều hành Microsoft: “Hào bảo vệ AI là vòng lặp học tập, doanh nghiệp không thể thuê ngoài việc học”
Raoul Pal: Quyền lực tính toán thay thế vốn, nút thắt AI sẽ kích hoạt vòng quay dòng vốn tiền mã hóa «làn sóng thứ ba»