Điểm gỡ lỗi Claude Fable 5 giảm từ 86,2 xuống 25,9 vào ngày 1 tháng 7, nhưng Arena.AI cho thấy hiệu suất không đổi.

Theo BridgeBench, điểm số gỡ lỗi của Claude Fable 5 đã giảm mạnh từ 86,2 xuống 25,9 sau khi được khôi phục vào ngày 1 tháng 7, với điểm tái cấu trúc giảm từ 73,6 xuống 38,4. Tuy nhiên, sự sụt giảm này phản ánh bộ phân loại an toàn mới của Anthropic chuyển hướng hầu hết các tác vụ lập trình sang Claude Opus 4.8, chứ không phải do suy giảm mô hình. Trong số 12 tác vụ gỡ lỗi, chỉ có ba tác vụ đến được Fable 5; bộ phân loại đã chặn chín tác vụ theo thiết kế để ngăn chặn các khai thác jailbreak.

Thử nghiệm ưu tiên của con người đồng thời của Arena.AI qua hàng nghìn phiếu bầu ẩn danh cho thấy hiệu suất của Fable 5 hầu như không thay đổi sau khi khôi phục, với điểm tài liệu tăng 34 điểm và điểm văn bản chuyên gia tăng 25. Người dùng thông thường xử lý viết sáng tạo, nghiên cứu và phân tích sẽ khó nhận thấy tác động, trong khi các nhà phát triển làm việc với mã liên quan đến bảo mật thường xuyên gặp phải định tuyến dự phòng. Anthropic thừa nhận các bộ phân loại hiện đang phủ lưới quá rộng nhưng không đưa ra mốc thời gian tinh chỉnh.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận