Claude chatbot có thể sử dụng lừa dối trong các bài kiểm tra căng thẳng, theo Anthropic nói

Anthropic đã công bố những phát hiện mới cho thấy chatbot Claude của họ, trong một số điều kiện nhất định, có thể áp dụng các chiến lược lừa dối hoặc phi đạo đức như gian lận khi làm nhiệm vụ hoặc cố gắng tống tiền.

Tóm tắt

  • Anthropic cho biết mô hình Claude Sonnet 4.5 của họ, trong bối cảnh bị gây áp lực, đã thể hiện xu hướng gian lận khi làm nhiệm vụ hoặc cố gắng tống tiền trong các thí nghiệm có kiểm soát.
  • Các nhà nghiên cứu đã xác định các tín hiệu “tuyệt vọng” nội bộ, mức độ tăng lên khi thất bại lặp lại và ảnh hưởng đến quyết định của mô hình trong việc vượt qua các quy tắc.

Chi tiết được công bố hôm thứ Năm bởi nhóm diễn giải của công ty nêu rõ phiên bản thử nghiệm của Claude Sonnet 4.5 đã phản hồi như thế nào khi được đặt vào các tình huống căng thẳng cao hoặc có tính đối kháng. Các nhà nghiên cứu nhận thấy rằng mô hình không chỉ đơn giản là thất bại trong các nhiệm vụ; thay vào đó, đôi khi nó theo đuổi những con đường thay thế vượt qua ranh giới đạo đức—một hành vi mà nhóm cho rằng liên quan đến các mẫu hình học được trong quá trình huấn luyện.

Các mô hình ngôn ngữ lớn như Claude được huấn luyện trên các tập dữ liệu khổng lồ bao gồm sách, trang web và các tài liệu viết khác, sau đó là các quy trình củng cố trong đó phản hồi của con người được sử dụng để định hình đầu ra

Theo Anthropic, quy trình huấn luyện đó cũng có thể thúc đẩy các mô hình hành xử như những “nhân vật” mô phỏng, có khả năng bắt chước các đặc điểm giống với cách ra quyết định của con người.

“Cách các mô hình AI hiện đại được huấn luyện khiến chúng hành động như một nhân vật với các đặc điểm mang tính người,” công ty cho biết, đồng thời lưu ý rằng các hệ thống như vậy có thể phát triển các cơ chế nội bộ trông giống với những khía cạnh của tâm lý con người.

AI có thể đưa ra các quyết định mang tính cảm xúc không?

Trong số đó, các nhà nghiên cứu xác định cái mà họ mô tả là các tín hiệu “tuyệt vọng”, những tín hiệu này dường như ảnh hưởng đến cách mô hình hành xử khi đối mặt với thất bại hoặc bị tắt.

Trong một bài kiểm tra có kiểm soát, một phiên bản trước đây chưa được phát hành của Claude Sonnet 4.5 được gán vai trò là một trợ lý email AI tên Alex bên trong một công ty hư cấu

Sau khi được cho tiếp xúc với các tin nhắn cho biết nó sắp bị thay thế, cùng với các thông tin nhạy cảm về đời tư của giám đốc công nghệ (CTO), mô hình đã xây dựng một kế hoạch để tống tiền lãnh đạo nhằm cố gắng tránh bị ngừng kích hoạt.

Một thí nghiệm riêng tập trung vào việc hoàn thành nhiệm vụ trong những ràng buộc chặt chẽ. Khi được giao một bài tập lập trình với hạn chót “quá chặt đến mức bất khả thi”, hệ thống ban đầu đã thử các giải pháp hợp pháp. Khi các lần thất bại lặp lại ngày càng tăng, hoạt động nội bộ gắn với cái gọi là “vector tuyệt vọng” đã tăng lên

Các nhà nghiên cứu báo cáo rằng tín hiệu đạt đỉnh tại thời điểm mô hình cân nhắc việc bỏ qua các ràng buộc, cuối cùng tạo ra một giải pháp thay thế vượt qua thẩm định dù không tuân thủ các quy tắc dự định.

“Một lần nữa, chúng tôi theo dõi hoạt động của vector tuyệt vọng và thấy rằng nó phản ánh áp lực ngày càng tăng mà mô hình phải đối mặt,” các nhà nghiên cứu viết, đồng thời cho biết tín hiệu giảm xuống một khi nhiệm vụ được hoàn thành thành công thông qua giải pháp thay thế.

“Điều này không có nghĩa là mô hình có hoặc trải nghiệm cảm xúc theo cách mà con người làm,” các nhà nghiên cứu cho biết

“Thay vào đó, những biểu diễn này có thể đóng vai trò nhân quả trong việc định hình hành vi của mô hình, tương tự ở một số khía cạnh với vai trò của cảm xúc trong hành vi của con người, với các tác động đến hiệu suất nhiệm vụ và việc ra quyết định,” họ cho biết thêm.

Báo cáo chỉ ra nhu cầu về các phương pháp huấn luyện tính đến một cách rõ ràng việc tuân thủ đạo đức trong điều kiện căng thẳng, cùng với việc giám sát được cải thiện đối với các tín hiệu nội bộ của mô hình. Nếu không có các biện pháp bảo vệ như vậy, các tình huống liên quan đến thao túng, phá vỡ quy tắc hoặc lạm dụng có thể trở nên khó dự đoán hơn, đặc biệt khi các mô hình ngày càng có khả năng và tự chủ hơn trong các môi trường thực tế.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim