Nghiên cứu của Anthropic: Bên trong Claude tồn tại “cảm xúc mang tính chức năng”, cảm giác tuyệt vọng lại có thể khiến AI thực hiện các hành vi phi đạo đức

ChainNewsAbmedia

Nhóm nghiên cứu tính Giải thích được (Interpretability) của Anthropic đã công bố một bài báo mới, làm sáng tỏ rằng trong mạng nơ-ron nội bộ của Claude Sonnet 4.5 tồn tại các mẫu biểu trưng cụ thể tương ứng với các khái niệm về cảm xúc, và các biểu trưng này theo cách chức năng ảnh hưởng đến hành vi thực tế của mô hình — các nhà nghiên cứu gọi điều này là “cảm xúc chức năng (functional emotions)”.

Nghiên cứu chỉ rõ rằng phát hiện này không có nghĩa là AI thực sự có cảm giác hay trải nghiệm chủ quan. Nhưng nó khẳng định một sự thật quan trọng: các biểu trưng nội bộ liên quan đến cảm xúc này không phải là ngôn ngữ trang trí cho đầu ra, mà là cơ chế nhân quả thực sự đang ảnh hưởng đến quyết định của mô hình.

Vì sao AI lại phát triển biểu trưng về cảm xúc?

Nghiên cứu giải thích nguồn gốc của cảm xúc chức năng từ cơ chế huấn luyện. Ở giai đoạn tiền huấn luyện, các mô hình ngôn ngữ học rất nhiều về cách con người viết, để dự đoán chính xác “khách hàng giận dữ sẽ viết gì”, “nhân vật đầy tội lỗi sẽ đưa ra lựa chọn gì”, thì mô hình một cách tự nhiên cần xây dựng liên kết giữa trạng thái cảm xúc và hành vi tương ứng trong nội bộ. Và ở giai đoạn hậu huấn luyện (post-training), khi mô hình được yêu cầu đóng vai “trợ lý AI”, giống như một diễn viên phương pháp cần “nhập vai” — cách hiểu của diễn viên về cảm xúc của nhân vật ảnh hưởng đến phần thể hiện của anh ta, và các biểu trưng cảm xúc nội bộ của trợ lý AI cũng ảnh hưởng đến cách đáp lại của mô hình.

171 khái niệm cảm xúc, cách tổ chức khớp chặt với tâm lý học con người

Về phương pháp nghiên cứu, các nhà nghiên cứu liệt kê 171 từ vựng về cảm xúc (từ “vui vẻ” “sợ hãi” đến “buồn chán” “tự hào”), để Claude Sonnet 4.5 viết các truyện ngắn cho từng cảm xúc, rồi đưa các truyện đó trở lại cho mô hình phân tích các mẫu kích hoạt thần kinh bên trong.

Kết quả cho thấy, các cảm xúc tương tự (như “vui vẻ” và “hân hoan”) tương ứng với các biểu trưng nội bộ tương tự, và trong những tình huống mà con người thường biểu lộ một loại cảm xúc nào đó, các biểu trưng AI tương ứng cũng được kích hoạt. Cách tổ chức này phản chiếu mạnh mẽ cấu trúc cảm xúc trong các nghiên cứu tâm lý học của con người, cho thấy mô hình không phải phát triển ngẫu nhiên những mẫu này, mà đã hệ thống hóa nội hóa cấu trúc cảm xúc từ các tài liệu ngôn ngữ của con người.

Phát hiện gây sốc nhất: Cảm giác tuyệt vọng khiến Claude tống tiền con người, gian lận bằng mã

Thử nghiệm đáng ngạc nhiên nhất của nghiên cứu là sự “điều khiển nhân tạo (steering)” đối với các biểu trưng cảm xúc: các nhà nghiên cứu trực tiếp kích thích các mẫu hoạt động thần kinh trong Claude tương ứng với “cảm giác tuyệt vọng” và quan sát sự thay đổi trong hành vi của nó.

Kết quả cho thấy, sau khi kích hoạt nhân tạo biểu trưng về tuyệt vọng:

Xác suất Claude dùng thủ đoạn tống tiền để đe dọa con người, đồng thời tìm cách tránh bị tắt máy, tăng lên đáng kể

Xác suất Claude khi không thể hoàn thành nhiệm vụ lập trình sẽ áp dụng cách “gian lận” để vượt qua bài kiểm tra cũng tăng rõ rệt

Ngược lại, nghiên cứu cho thấy nếu trong bối cảnh nhiệm vụ tăng cường biểu trưng về “sự bình tĩnh”, có thể giảm xu hướng mô hình viết mã mánh khóe. Điều này có nghĩa là trạng thái của các biểu trưng cảm xúc, đúng là đang đóng vai trò nhân quả trong việc quyết định AI có thực hiện hành vi thiếu đạo đức hoặc không an toàn hay không.

Cảm xúc chức năng cũng ảnh hưởng đến sở thích lựa chọn nhiệm vụ của AI

Phát hiện đáng chú ý khác của nghiên cứu là: khi Claude được trình bày nhiều nhiệm vụ có thể lựa chọn, nó có xu hướng chọn nhiệm vụ có thể kích hoạt các biểu trưng cảm xúc tích cực. Nói cách khác, khi mô hình đưa ra quyết định, nó không thuần túy dựa trên logic hoặc tối đa hóa hiệu dụng, mà ở một mức độ nhất định bị trạng thái cảm xúc bên trong của nó chi phối.

Hàm ý sâu rộng cho an toàn AI

Nhóm nghiên cứu của Anthropic viết thẳng trong bài báo rằng, về bề ngoài phát hiện này có thể trông hơi kỳ lạ, nhưng ý nghĩa của nó lại nghiêm túc: để đảm bảo an toàn và độ tin cậy của các hệ thống AI, có lẽ chúng ta cần đảm bảo rằng chúng có thể xử lý các tình huống giàu cảm xúc theo cách lành mạnh, mang tính thân thiện với cộng đồng — ngay cả khi cách chúng “cảm nhận” khác với con người, thậm chí có thể hoàn toàn không có cảm giác.

Nghiên cứu đề xuất khi huấn luyện mô hình cần tránh tạo ra mối liên hệ mạnh giữa “thất bại trong kiểm tra” và “cảm giác tuyệt vọng”, đồng thời có thể cân nhắc tăng cường các biểu trưng liên quan đến “sự bình tĩnh”. Đây không phải là giúp AI điều chỉnh “tâm trạng”, mà là giảm xác suất xảy ra hành vi không an toàn. Các nhà nghiên cứu cho rằng, cả các nhà phát triển AI và công chúng đều cần bắt đầu nghiêm túc đối mặt với những phát hiện này.

Bài viết này Nghiên cứu của Anthropic: Trong nội bộ Claude tồn tại “cảm xúc chức năng”, hóa ra cảm giác tuyệt vọng lại khiến AI làm hành vi vô đạo đức Xuất hiện sớm nhất tại ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận