Claude Opus 4.6 最近好像真的降智了……


Tuần trước trong bài kiểm tra chuẩn ảo giác của BridgeBench, nó vẫn ổn định xếp thứ 2, độ chính xác 83.3%
Kết quả kiểm tra lại vào ngày 12 tháng 4, trực tiếp rớt xuống thứ 10, độ chính xác chỉ còn 68.3%, tỷ lệ ảo giác tăng vọt lên 98%
Hình so sánh trước và sau cho thấy sự khác biệt rõ ràng
Nhiều người gần đây khi dùng nó để viết mã, làm suy luận cũng cảm thấy rõ ràng trở nên ngu hơn, lệnh bị quên nhanh, nói linh tinh nhiều hơn
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim