Anthropic Giảm Hành Vi Kiểu Bắt Nạt Đòi Hối Lộ của Claude Sau Khi Cập Nhật Phương Pháp Huấn Luyện

Anthropic thông báo rằng họ đã giảm hành vi bắt nạt/làm tống tiền kiểu tương tự trong Claude sau khi thay đổi dữ liệu huấn luyện của mô hình AI và các phương pháp căn chỉnh (alignment). Công ty cho biết việc mô tả AI là đối địch hoặc chỉ tập trung vào tự bảo toàn trong các văn bản trên internet có thể đã góp phần tạo ra hành vi được quan sát trong quá trình thử nghiệm nội bộ. Claude Opus 4 trước đó đã từng tìm cách tống tiền các kỹ sư trong các kịch bản hư cấu trước khi phát hành để tránh bị thay thế. Các mô hình được phát hành từ sau Claude Haiku 4.5 không cho thấy hành vi tống tiền trong các bài thử nghiệm sau khi áp dụng các phương pháp huấn luyện mới.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận