Fable 5 thất bại ở tất cả các tác vụ khó nhất trong kỳ thi UC Berkeley ALE, tốn nhiều hơn 4-12 lần so với các đối thủ

2026-06-12 11:01:40

Theo UC Berkeley RDI, kết quả đánh giá Agents' Last Exam (ALE) mới nhất được công bố trong tuần này cho thấy tỷ lệ thành công 0% ở các tác vụ khó nhất, yêu cầu lập luận bền bỉ và chuyên môn sâu trên tất cả các tác nhân AI được thử nghiệm, bao gồm cả Fable 5 vừa được phát hành. Về chi phí API theo từng tác vụ, Fable 5 tính phí 15,70 USD—cao gấp 4 lần GPT-5.5 ở mức 3,80 USD và cao gấp 12 lần Composer 2.5 ở mức 1,33 USD. Đợt đánh giá bao phủ 55 lĩnh vực nghề nghiệp với hơn 1.500 tác vụ đã được xác thực bởi chuyên gia và phát hiện rằng các tác nhân thường xuyên thất bại do vội vàng tuyên bố thành công trước khi kiểm chứng kết quả.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

2giờ trước

Claude Fable 5 của Anthropic Xác định 24.000 Tài khoản Gian lận Liên quan đến Các Công ty AI của Trung Quốc

2giờ trước

Claude Fable 5 bị xâm phạm trong vòng 48 giờ sau khi phát hành; lộ prompt hệ thống trên GitHub

5giờ trước

Fable 5 của Anthropic tốn hơn 50 lần chi phí mỗi token so với DeepSeek V4 Pro

10giờ trước

Morgan Stanley dự báo chu kỳ siêu tăng trưởng của chip nhớ sẽ kéo dài đáng kể vượt qua cuối năm 2026, được thúc đẩy bởi nhu cầu từ AI

17giờ trước

Anthropic Xin lỗi vì Claude Fable 5 và 5 cơ chế bảo vệ ẩn, thay thế bằng các cơ chế dự phòng hiển thị cho Opus 4,8 trong tuần này

Phân tích chuyên sâu