Báo cáo của Anthropic: Tỷ lệ thắng của AI khi ra quyết định tăng lên 64%, tối ưu mã gấp 52 lần

2026-06-05 02:20:35

Anthropic vào ngày 4 tháng 6 đã công bố báo cáo, tiết lộ rằng mô hình Mythos Preview của họ trong các bài thử nghiệm hỗ trợ AI ra quyết định nghiên cứu đã đưa ra quyết định tốt hơn các nhà nghiên cứu con người trong 64% trường hợp, trong khi tỷ lệ thắng của các bài thử nghiệm cùng loại trong năm 2024 chỉ là 22%. Ở các bài kiểm tra chuẩn tối ưu mã huấn luyện cho mô hình AI cỡ nhỏ, Mythos Preview đạt mức cải thiện tốc độ lên 52 lần.

Phương pháp và dữ liệu trong bài thử nghiệm ra quyết định nghiên cứu

Thiết kế bài thử nghiệm được Anthropic công khai: đội ngũ cho Claude xem các bản ghi hội thoại mà nhà nghiên cứu con người sắp đưa ra phán đoán sai về hướng nghiên cứu, rồi hỏi AI “tiếp theo nên làm gì”. Mythos Preview trong 64% trường hợp đã đưa ra câu trả lời tốt hơn các nhà nghiên cứu con người; tỷ lệ thắng của các bài thử nghiệm cùng loại trong năm 2024 là 22%.

Trong báo cáo, Anthropic giải thích rằng kết quả này “gợi ý AI đã bắt đầu có khả năng hướng dẫn nghiên cứu cấp cao”, nhưng đồng thời cho biết hiện vẫn chưa thể xác định liệu Claude có năng lực phán đoán toàn cục để tự chọn “các vấn đề nghiên cứu đúng” hay không.

Dữ liệu hiệu quả mã được nêu trong báo cáo của Anthropic

Các chỉ số liên quan đến hiệu quả mã trong báo cáo của Anthropic:

Khối lượng bàn giao mã theo quý của kỹ sư nội bộ: gấp 8 lần so với mức trung bình giai đoạn 2021-2025

Tỷ lệ thành công các bài toán mã nguồn mở: tăng 50 điểm phần trăm trong vòng 6 tháng, đạt 76%

Tốc độ tối ưu mã huấn luyện: Mythos Preview đạt mức cải thiện 52 lần

Chuẩn so sánh: Claude Opus 4 (tháng 5 năm 2024) trung bình khoảng 3 lần; kỹ sư nhân sự lành nghề thường cần 4-8 giờ để đạt khoảng 4 lần

Báo cáo của Anthropic cho biết, một số kỹ sư nội bộ đánh giá chất lượng mã của Claude đã tiến sát mức con người.

Viện nghiên cứu của Anthropic: xác nhận thành lập, tác động tiềm năng đến RSI

Anthropic công bố sẽ hợp tác với các bên liên quan bên ngoài để thành lập “Viện nghiên cứu Anthropic (Anthropic Institute)”, tập trung nghiên cứu tác động sâu rộng của các hệ thống AI mạnh mẽ.

Trong báo cáo, Anthropic cho biết, sự phát triển tăng tốc của AI vừa có thể mang lại tác động tích cực cho các lĩnh vực y học, công nghệ và kinh tế, vừa có thể làm trầm trọng thêm bài toán căn chỉnh AI (Alignment) và dẫn tới rủi ro “mất kiểm soát (Loss of control)”, đồng thời Anthropic nhận định tác động này “đáng được quan tâm ở mức độ cao hơn”.

Câu hỏi thường gặp

Thiết kế cụ thể của bài thử nghiệm tỷ lệ thắng ra quyết định của Mythos Preview là gì?

Anthropic cho Claude xem các bản ghi hội thoại mà nhà nghiên cứu sắp đi vào hướng nghiên cứu sai, rồi hỏi “tiếp theo nên làm gì”, nhằm kiểm tra năng lực phán đoán nghiên cứu của AI. Mythos Preview trong 64% trường hợp đã đưa ra câu trả lời tốt hơn các nhà nghiên cứu con người; so với tỷ lệ thắng 22% của các bài thử nghiệm cùng loại trong năm 2024, trong hai năm đã đạt mức tăng trưởng bùng nổ.

“Tự cải tiến đệ quy (RSI)” được nhắc tới trong báo cáo của Anthropic là gì?

Tự cải tiến đệ quy (Recursive Self-Improvement) là việc một hệ thống AI có năng lực tự phát triển ra thế hệ AI tiếp theo mạnh hơn chính nó. Trong báo cáo ngày 4 tháng 6 năm 2026, Anthropic cho biết tiến trình này đang được đẩy nhanh với “tốc độ nhanh hơn dự kiến”, đồng thời cũng thừa nhận hiện vẫn chưa thể xác định liệu Claude có năng lực phán đoán toàn cục để tự chọn “các vấn đề nghiên cứu đúng” hay không.

Định vị và mục tiêu của Viện nghiên cứu Anthropic là gì?

Anthropic công bố sẽ hợp tác với các bên liên quan bên ngoài để thành lập Viện nghiên cứu Anthropic, tập trung nghiên cứu tác động sâu rộng của các hệ thống AI mạnh mẽ. Anthropic cho biết mục đích của việc thành lập là đảm bảo con người có thể đưa ra các lựa chọn thận trọng cho tương lai của công nghệ AI; phạm vi nghiên cứu và tiến độ cụ thể hiện chưa được công bố đầy đủ.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

06-05 00:37

Anthropic nộp hồ sơ IPO bảo mật khi $965B định giá thúc đẩy $65B huy động vốn

06-04 22:28

Anthropic kêu gọi tạm dừng toàn cầu phát triển AI tiên phong, ngày 5 tháng 6

06-04 19:21

Anthropic triển khai mô hình AI Mythos cho NSA Mỹ để thực hiện các hoạt động mạng, điều động 6 kỹ sư cho trạm