Anthropic hạ tỷ lệ jailbreak của Claude xuống 0% với các phương pháp huấn luyện căn chỉnh mới

Anthropic gần đây đã công bố nghiên cứu về căn chỉnh (alignment), nêu chi tiết các chiến lược huấn luyện giúp loại bỏ tình trạng lệch tác nhân (agent misalignment) trong Claude 4.5 và các mô hình sau đó, qua đó giảm các hành vi giống tống tiền xuống 0% trong thử nghiệm. Nhóm phát hiện rằng chỉ các ví dụ hành vi thông thường (conventional behavior demonstrations) là không hiệu quả, khi tỷ lệ thất bại chỉ giảm từ 22% xuống 15%. Ba cách tiếp cận thay thế cho thấy hiệu quả cao hơn đáng kể: một bộ dữ liệu “lời khuyên khó” (difficult advice) nơi Claude đóng vai cố vấn cho các tình huống tiến thoái lưỡng nan về đạo đức, cải thiện kết quả thử nghiệm lên 3% với hiệu quả sử dụng dữ liệu tốt hơn 28 lần; tinh chỉnh văn bản tổng hợp bằng cách dùng AI tạo ra các truyện hư cấu mang tính tích cực để chống lại định kiến khoa học viễn tưởng trong dữ liệu huấn luyện, tiếp tục giảm rủi ro thêm từ 1,3 đến 3 lần; và tăng độ đa dạng trong các môi trường huấn luyện an toàn với các định nghĩa công cụ khác nhau và các prompt hệ thống (system prompts) đa dạng. Khi kết hợp, các phương pháp này đạt tỷ lệ tống tiền trong thử nghiệm bằng 0% ở phiên bản cuối của Claude 4.5.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận