Anthropic thay thế các “lớp bảo vệ vô hình” của Claude Fable 5 bằng các phương án dự phòng hiển thị

Anthropic thừa nhận trong tuần này rằng các biện pháp bảo vệ “vô hình” trong mô hình Claude Fable 5 là “sự đánh đổi sai lầm” và công bố sẽ thay thế chúng bằng các phương án “hữu hình” để phòng trường hợp xấu, chuyển sang Claude Opus 4.8, bắt đầu từ tuần này. Công ty vấp phải làn sóng phản đối sau khi ra mắt Claude Fable 5, bản đầu tiên trong lớp Mythos mới của họ, với một biện pháp bảo vệ được chôn trong thẻ hệ thống 319 trang, âm thầm làm suy giảm phản hồi đối với người dùng bị nghi ngờ đang xây dựng các mô hình AI cạnh tranh. Tranh cãi bùng nổ sau khi công ty nghiên cứu AI SemiAnalysis công khai báo cáo vào ngày 9/6/2026 rằng nghiên cứu suy luận GPU của họ đã bị gắn cờ, và Anthropic đã đăng lời xin lỗi trên X vào ngày 11/6/2026.

Biện pháp bảo vệ vô hình này hoạt động khác với các cơ chế bảo vệ hữu hình hiện có của mô hình đối với nghiên cứu an ninh mạng và sinh học. Các cơ chế đó sẽ thông báo cho người dùng khi yêu cầu bị chuyển hướng sang mô hình Opus 4.8 cũ hơn.

Anthropic công bố hệ thống chuyển hướng dự phòng hiển thị cho các yêu cầu bị gắn cờ

Bắt đầu từ tuần này, các yêu cầu bị gắn cờ sẽ được chuyển hướng hiển thị tới Claude Opus 4.8 thay vì âm thầm gửi đầu ra Fable đã bị suy giảm. Người dùng API sẽ nhận được lý do được nêu rõ khi một yêu cầu bị từ chối. Anthropic cho biết thông báo chuyển hướng dự phòng phía máy chủ sẽ được triển khai trong vài ngày tới. Công ty đăng trên X: “Các biện pháp bảo vệ vô hình có thể được nhắm tới hẹp hơn, cho phép chúng tôi triển khai nhanh với rất ít dương tính giả. Chúng tôi chọn biện pháp bảo vệ vô hình vì lý do đó — và đó là sự đánh đổi sai lầm. Lẽ ra bạn phải thấy rõ các biện pháp bảo vệ mà chúng tôi đang áp dụng, và vì sao. Chúng tôi xin lỗi vì đã không cân bằng đúng.”

Claude Fable 5 ban đầu dùng cơ chế suy giảm phản hồi âm thầm

Cơ chế bảo vệ trong quá trình phát triển LLM phát hiện khi người dùng đang làm việc trên các hệ thống AI tiền huấn luyện, xây dựng hạ tầng huấn luyện phân tán, hoặc thiết kế các con chip máy học. Mô hình sẽ âm thầm thay đổi hành vi của chính nó thông qua chỉnh sửa prompt, vector điều hướng hoặc điều chỉnh tham số để đưa ra câu trả lời kém hơn mà không thông báo. Người dùng vẫn nhận được phản hồi nhưng không phải từ Fable 5 mà họ đã trả tiền. Claude Fable 5 đã có sẵn các biện pháp bảo vệ hữu hình cho nghiên cứu an ninh mạng và sinh học, thông báo cho người dùng khi yêu cầu bị chuyển hướng sang mô hình Opus 4.8 cũ hơn. Các vấn đề về độ chính xác của bộ phân loại khiến công việc máy học hợp pháp bị gắn cờ, tạo ra các vấn đề về khả năng tái lập đối với các nhà nghiên cứu AI, những người không có cách nào biết kết quả của họ bị nhiễm bẩn.

Hệ thống mới chuyển các yêu cầu bị gắn cờ sang Claude Opus 4.8

Các yêu cầu bị gắn cờ hiện sẽ tự động chuyển hướng dự phòng hiển thị sang Opus 4.8, giống với các biện pháp bảo vệ của công ty cho nghiên cứu an ninh mạng và sinh học. Người dùng sẽ thấy thông báo này mỗi lần sự việc xảy ra. Trên API, mọi yêu cầu bị gắn cờ sẽ trả về lý do từ chối thay vì âm thầm gửi câu trả lời đã bị suy giảm. Anthropic đang áp dụng những thay đổi tương tự cho các bộ phân loại sinh học và an ninh mạng của mình, vốn đã vấp phải nhiều phàn nàn về việc gắn cờ các prompt nghiên cứu vô hại.

Anthropic thừa nhận dương tính giả tăng lên từ các biện pháp bảo vệ hiển thị

Anthropic thừa nhận trực tiếp sự đánh đổi mà họ đang chấp nhận: việc làm cho biện pháp bảo vệ hiển thị khiến nó dễ bị vượt qua hơn, nghĩa là bộ phân loại phải “đánh” rộng hơn để vẫn hiệu quả. Sẽ có thêm dương tính giả — các công việc máy học hợp pháp bị bắt và chuyển hướng — trong khi công ty tinh chỉnh hệ thống. Anthropic cho biết họ đang cố gắng giảm dương tính giả “nhanh nhất có thể” nhưng không đưa ra mốc thời gian. Fable 5 vẫn miễn phí trên các gói Pro, Max, Team và Enterprise cho đến ngày 22/6, sau đó chỉ chuyển sang cơ chế dùng tín dụng truy cập API.

Câu hỏi thường gặp

Anthropic đã thay đổi gì về các biện pháp bảo vệ của Claude Fable 5 trong tuần này?

Anthropic công bố bắt đầu từ tuần này, các yêu cầu bị gắn cờ sẽ được chuyển hướng hiển thị tới Claude Opus 4.8 thay vì âm thầm gửi đầu ra đã bị suy giảm. Người dùng API sẽ nhận được lý do được nêu rõ khi yêu cầu bị từ chối, và các thông báo chuyển hướng dự phòng phía máy chủ sẽ được triển khai trong vài ngày tới.

Vì sao Anthropic xin lỗi vì các biện pháp bảo vệ ban đầu của Claude Fable 5?

Anthropic đã xin lỗi vì các biện pháp bảo vệ vô hình dành cho phát triển LLM của mô hình đã âm thầm làm suy giảm phản hồi mà không thông báo cho người dùng, điều mà công ty thừa nhận là “sự đánh đổi sai lầm”. Biện pháp bảo vệ này bị chôn trong thẻ hệ thống 319 trang và gây ra các vấn đề về khả năng tái lập cho các nhà nghiên cứu AI hợp pháp, những người không có cách nào biết kết quả của họ bị nhiễm bẩn.

Khi nào việc truy cập miễn phí Claude Fable 5 kết thúc?

Fable 5 vẫn miễn phí trên các gói Pro, Max, Team và Enterprise cho đến ngày 22/6, sau đó chỉ chuyển sang cơ chế dùng tín dụng truy cập API.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận