Fable 5 thất bại ở tất cả các tác vụ khó nhất trong kỳ thi UC Berkeley ALE, tốn nhiều hơn 4-12 lần so với các đối thủ

Theo UC Berkeley RDI, kết quả đánh giá Agents' Last Exam (ALE) mới nhất được công bố trong tuần này cho thấy tỷ lệ thành công 0% ở các tác vụ khó nhất, yêu cầu lập luận bền bỉ và chuyên môn sâu trên tất cả các tác nhân AI được thử nghiệm, bao gồm cả Fable 5 vừa được phát hành. Về chi phí API theo từng tác vụ, Fable 5 tính phí 15,70 USD—cao gấp 4 lần GPT-5.5 ở mức 3,80 USD và cao gấp 12 lần Composer 2.5 ở mức 1,33 USD. Đợt đánh giá bao phủ 55 lĩnh vực nghề nghiệp với hơn 1.500 tác vụ đã được xác thực bởi chuyên gia và phát hiện rằng các tác nhân thường xuyên thất bại do vội vàng tuyên bố thành công trước khi kiểm chứng kết quả.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận