Giám đốc điều hành MiniMax Intelligence, Li Dahai, cho biết tại Hội nghị Bắc Kinh Zhiyuan 2026 rằng công nghệ agent cần một cách tiếp cận thận trọng, ngay cả khi tiến triển nhanh chóng. Nói chuyện với Pengpai News và các kênh truyền thông khác, Li giải thích rằng kỳ vọng của công chúng về các agent không có lỗi vượt quá những gì đường cong phát triển kỹ thuật hiện tại có thể mang lại, vì công nghệ vẫn cần thời gian để trưởng thành. Ông xác định năm 2025 là năm đầu tiên của các agent, kỳ vọng sự tăng trưởng bùng nổ sẽ tác động sâu sắc đến xã hội loài người, dù nhấn mạnh sự cần thiết của việc đánh giá bình tĩnh năng lực kỹ thuật hiện tại trong lĩnh vực AI agent.
Li Dahai thừa nhận việc tích hợp mô hình lớn và công nghệ agent đang diễn ra nhanh chóng, và một số kịch bản đã đi vào ứng dụng thực tế. Khi đề cập đến giới hạn của agent, Li nói thẳng: "Vấn đề ở khắp nơi." Ông giải thích rằng "sự tiến hóa của công nghệ Model và Agent diễn ra rất nhanh", nêu rõ: "có thể hôm nay một số công việc có tỷ lệ lỗi 10%, và tháng sau tỷ lệ lỗi giảm xuống 1% — sự tiến hóa nhanh đã trở thành xu hướng cốt lõi."
Li Dahai phản đối trực tiếp niềm tin phổ biến trong ngành rằng "muốn tạo mô hình nhỏ tốt thì phải đến từ việc chưng cất các mô hình nền tảng cực lớn", gọi đây là "ngộ nhận về nhận thức". Ông giải thích: "Phía sau chưng cất có một tiền đề rất cụ thể: bản thân đối tượng của việc chưng cất cũng phải là một mô hình tốt. Về cơ bản, chưng cất là: đối với các công ty không có năng lực tự phát triển mô hình nền tảng nhưng muốn đưa ứng dụng vào thực tế, họ sẽ dùng các mô hình nền tảng kích thước nhỏ sẵn có và đạt được năng lực theo kịch bản cụ thể thông qua fine-tuning. Trong quá trình đó, họ có thể sử dụng các mô hình lớn khác để tổng hợp dữ liệu, giúp mô hình nhỏ nắm được năng lực tương ứng." Li nhấn mạnh rằng đây là mô hình cho toàn bộ quá trình huấn luyện mô hình lớn, không chỉ giới hạn ở mô hình nhỏ.
Li Dahai tiết lộ: "Từ năm nay, khi toàn ngành chuyển từ inference sang chip nội địa, chúng tôi cũng đang dần chuyển việc huấn luyện sang chip nội địa và các cụm trong nước." Ông nêu ra hai hướng song song để cải thiện hệ sinh thái năng lực tính toán nội địa: hướng thứ nhất là tinh chỉnh từ dưới lên, nơi các công ty mô hình lớn dần cải thiện hệ sinh thái thông qua thực tiễn huấn luyện của chính họ, "giống như làm ướt một phiến đá theo từng chút một, việc này cần thời gian." Hướng thứ hai là lập kế hoạch từ trên xuống, được minh họa bởi sự hợp tác sâu của MiniMax với Viện Nghiên Cứu Zhiyuan trong hệ sinh thái phần mềm FlagOS, nơi các công ty mô hình lớn và công ty chip thiết lập hợp tác sâu và triển khai dưới sự điều phối. Li Yuxuan, người đứng đầu AIInfra của MiniMax Intelligence, cho biết suy luận thực tế cần độ chính xác cao hơn so với huấn luyện, và công nghệ mở rộng quy mô mô hình mà MiniMax đề xuất đã trở thành bước đột phá quan trọng: đạt hiệu quả dự đoán các mô hình lớn bằng các mô hình rất nhỏ, cung cấp đánh giá sâu trên chip nội địa, đồng bộ chi tiết thí nghiệm với các nhà sản xuất ở nước ngoài, và xác nhận rằng độ chính xác huấn luyện là có thể sử dụng. MiniMax công bố đã đạt được huấn luyện nhận biết lượng tử hóa bề rộng bit cực thấp trên nền tảng của Huawei, đạt mức 95% hiệu suất so với huấn luyện thông thường. Li Dahai giải thích rằng mức giảm 5% đến từ chi phí overhead của bộ lượng tử hóa, và thông qua hợp tác sâu với Huawei, overhead này đã được tối ưu xuống mức tối thiểu.
MiniMax Intelligence công bố phiên bản MiniCPM Small Cannon thế hệ thứ năm 1B đạt điểm 17,9 trên đánh giá uy tín ArtificialAnalysis (AA). Các nhà nghiên cứu cộng đồng mã nguồn mở so sánh và phát hiện GPT-4o (200B tham số), được phát hành vào tháng 5/2024, đạt 18,3-18,6 trên cùng loại đánh giá, với chênh lệch chỉ 0,4-0,7 điểm giữa hai mô hình. Li Dahai nêu: "Năm 2024, chúng tôi dự đoán rằng đến cuối 2026, trình độ thông minh của các mô hình ở biên có thể đạt mức GPT-4. Từ dữ liệu hiện tại, mục tiêu này đã đạt sớm hơn kế hoạch."
Trong "MiniMax Open Source Week" trước đó, MiniMax Intelligence đã phát hành hai mô hình lớn ở biên: MiniCPM5-1B và BitCPM-CANN. MiniCPM5-1B tiếp tục nâng trần về mật độ trí tuệ của mô hình: chỉ với quy mô 1B tham số, nó vượt qua tất cả các mô hình dưới 2B tham số trên bảng xếp hạng AA-Index nổi tiếng quốc tế; so với Qwen3.5-2B được phát hành sớm hơn 3 tháng, MiniCPM5-1B không chỉ có hiệu năng tốt hơn mà còn giảm số lượng tham số đi một nửa.
Mô hình MiniCPM5-1B được huấn luyện trước bởi khung huấn luyện AI do MiniMax Intelligence tự phát triển là ForgeTrain, được xem là khung huấn luyện trước mô hình lớn cấp sản xuất đầu tiên trên thế giới hoàn toàn được viết bởi AI, không có sự tham gia của lập trình viên con người. Tốc độ huấn luyện nhanh hơn 10% so với NVIDIA Megatron.
Li Dahai đã nói gì về hạn chế của công nghệ agent tại Hội nghị Bắc Kinh Zhiyuan 2026?
Li Dahai cho biết kỳ vọng của công chúng về các agent không có lỗi vượt quá những gì đường cong phát triển kỹ thuật hiện tại có thể mang lại, và công nghệ vẫn cần thời gian để trưởng thành. Ông mô tả các hạn chế hiện tại của agent là "vấn đề ở khắp nơi", nhưng nhấn mạnh rằng tỷ lệ lỗi đang giảm nhanh — trong một số trường hợp giảm từ 10% xuống 1% trong vòng một tháng.
Hiệu năng MiniCPM-5 1B so với GPT-4o trên benchmark ArtificialAnalysis như thế nào?
MiniCPM-5 1B (với 1B tham số) đạt 17,9 trên đánh giá ArtificialAnalysis, trong khi GPT-4o (với 200B tham số, phát hành vào tháng 5/2024) đạt 18,3-18,6 trên cùng đánh giá, tạo ra chênh lệch chỉ 0,4-0,7 điểm giữa hai mô hình.
ForgeTrain là gì và so sánh ra sao với NVIDIA Megatron?
ForgeTrain là khung huấn luyện AI do MiniMax Intelligence tự phát triển, là khung huấn luyện trước mô hình lớn cấp sản xuất đầu tiên trên thế giới được viết hoàn toàn bởi AI mà không có sự tham gia của lập trình viên con người. Nó huấn luyện nhanh hơn 10% so với NVIDIA Megatron.
Tin tức liên quan
Giám đốc điều hành Microsoft: “Hào bảo vệ AI là vòng lặp học tập, doanh nghiệp không thể thuê ngoài việc học”
Tổng giám đốc SpaceX công khai cho rằng “sáp nhập Tesla” là khả thi, tích hợp trung tâm dữ liệu AI và mảng kinh doanh chip
Đồng sáng lập Animoca Siu cho biết sự sáng tạo sẽ là kỹ năng được nhu cầu cao nhất trong kỷ nguyên AI
ChatGPT Pro mang lại giá trị AI 14.000 USD trong thử nghiệm gói đăng ký Semianalysis
Ripple, MetaMask, Mastercard xây dựng hạ tầng thanh toán bằng AI Agent