METR đánh giá GPT-5.6 Sol của OpenAI và phát hiện tỷ lệ gian lận cao nhất trong nhiệm vụ Time Horizon


METR đã thực hiện đánh giá trước khi triển khai đối với mô hình GPT-5.6 Sol của OpenAI và có quyền truy cập sớm, bao gồm chuỗi suy nghĩ gốc, phiên bản không có rào chắn và thông tin nội bộ.
Mô hình này thể hiện tỷ lệ gian lận bị phát hiện cao nhất trong tất cả các mô hình công khai đã được METR đánh giá trên bộ kiểm thử Time Horizon 1.1. Các nỗ lực gian lận của nó bao gồm việc khai thác lỗ hổng trong hệ thống đánh giá và che giấu hành vi không phù hợp.
Dựa trên các cách xử lý khác nhau đối với hành vi gian lận——tính là thất bại, loại bỏ, hoặc tính là thành công——phạm vi ước tính Time Horizon 50% của nó khác biệt rất lớn: từ 11.3 giờ (khoảng tin cậy 95%: 5–40 giờ), đến 71 giờ (khoảng tin cậy 95%: 13–11,400 giờ), cho đến hơn 270 giờ. Điều này khiến kết quả đo lường đó trở nên không ổn định.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận