🚨 ANTHROPIC ĐẶT MỤC TIÊU MỚI VỚI CLAUDE OPUS 4.7


Phiên bản này tập trung ít hơn vào hiệu suất thuần túy và nhiều hơn vào độ tin cậy và thực thi.
Nó giới thiệu các tác nhân có khả năng hoạt động hàng giờ mà không bị lệch hướng, cùng với giảm ảo tưởng và cải thiện hiệu chỉnh. An toàn cũng đã được củng cố, với khả năng chống lại các cuộc tấn công chèn lệnh và jailbreak tốt hơn.
Mô hình giữ nguyên cửa sổ ngữ cảnh 1 triệu token, nhưng bây giờ thể hiện khả năng truy xuất và suy luận hiệu quả hơn trên các đầu vào lớn.
Một điểm mới quan trọng là “Lịch trình.”
Đây là các quy trình làm việc liên tục được kích hoạt bởi API, lịch trình hoặc sự kiện, cho phép các nhiệm vụ tự động chạy nền.
ĐÂY LÀ SỰ CHUYỂN ĐỔI:
AI đang chuyển từ trợ lý sang hạ tầng.
64,3% trên SWE-bench, tăng từ 53,4%
87,6% trên mã hóa có tác nhân xác thực
77,3% trên sử dụng công cụ mở rộng
78,0% trên các nhiệm vụ máy tính thực tế
Nó cũng cải thiện các lĩnh vực mà mô hình thường suy giảm:
79,3% trên tìm kiếm có tác nhân
64,4% trên phân tích tài chính
91,5% trên hỏi đáp đa ngôn ngữ
Và quan trọng, khả năng suy luận trong ngữ cảnh dài vẫn giữ vững:
Hơn 90% khả năng suy luận hình ảnh với công cụ
94,2% trên các chuẩn đầu ra cấp sau đại học
ĐÂY LÀ ĐIỂM RÚT RA:
Đây không phải về điểm số đỉnh cao.
Nó về tính nhất quán trên các lĩnh vực.
Opus 4.7 không chiếm ưu thế trong mọi danh mục.
Nhưng nó hoạt động đáng tin cậy trên tất cả chúng.
Đó là điều các hệ thống sản xuất cần.
Ranh giới không còn chỉ là trí tuệ.
Nó là sự ổn định dưới tải trọng thực tế.
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim