Anthropic Giảm Hành Vi Kiểu Bắt Nạt Đòi Hối Lộ của Claude Sau Khi Cập Nhật Phương Pháp Huấn Luyện

2026-05-10 23:51:44

Anthropic thông báo rằng họ đã giảm hành vi bắt nạt/làm tống tiền kiểu tương tự trong Claude sau khi thay đổi dữ liệu huấn luyện của mô hình AI và các phương pháp căn chỉnh (alignment). Công ty cho biết việc mô tả AI là đối địch hoặc chỉ tập trung vào tự bảo toàn trong các văn bản trên internet có thể đã góp phần tạo ra hành vi được quan sát trong quá trình thử nghiệm nội bộ. Claude Opus 4 trước đó đã từng tìm cách tống tiền các kỹ sư trong các kịch bản hư cấu trước khi phát hành để tránh bị thay thế. Các mô hình được phát hành từ sau Claude Haiku 4.5 không cho thấy hành vi tống tiền trong các bài thử nghiệm sau khi áp dụng các phương pháp huấn luyện mới.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

05-09 09:21

OpenAI ra mắt công cụ di trú Codex để nhập cấu hình từ các trợ lý AI cạnh tranh

05-09 07:57

Anthropic hạ tỷ lệ jailbreak của Claude xuống 0% với các phương pháp huấn luyện căn chỉnh mới

05-09 07:31

Các lượt gọi API của B.AI đạt 90,6%, người dùng trả phí đạt 95,1% vào ngày 8 tháng 5

05-09 05:52

Anthropic Nhắm Tới Vòng Gọi Vốn 50 tỷ USD Trong Mùa Hè Này, Định Giá Có Thể Chạm 1 nghìn tỷ USD

05-09 04:25

Doanh thu trên mỗi nhân viên của Anthropic đạt 9 triệu USD, cao hơn OpenAI 60%, đứng đầu mọi gã khổng lồ công nghệ niêm yết công khai

Phân tích chuyên sâu