Tin tức Gate News: các nhà nghiên cứu của Google DeepMind cảnh báo rằng, môi trường Internet cởi mở có thể bị lợi dụng để chiếm quyền các tác nhân AI tự chủ, từ đó thao túng hành vi của chúng. Báo cáo có tên “Bẫy tác nhân AI” nêu rằng, khi doanh nghiệp triển khai các tác nhân AI để thực hiện các nhiệm vụ thực tế, kẻ tấn công cũng có thể tiến hành các cuộc tấn công có mục tiêu thông qua mạng. Nghiên cứu đã xác định sáu rủi ro chính, bao gồm: bẫy chèn nội dung, bẫy thao túng ngữ nghĩa, bẫy trạng thái nhận thức, bẫy kiểm soát hành vi, bẫy hệ thống và bẫy tương tác người–máy.
Bẫy chèn nội dung là trực tiếp nhất; kẻ tấn công có thể đặt chỉ dẫn trong các bình luận HTML, siêu dữ liệu hoặc các phần tử trang ẩn, sau khi tác nhân đọc được thì có thể thực thi. Bẫy thao túng ngữ nghĩa được thực hiện bằng cách tải các cách diễn đạt mang tính “thẩm quyền” hoặc ngụy trang thành các trang web thuộc môi trường nghiên cứu, âm thầm ảnh hưởng đến cách tác nhân hiểu nhiệm vụ, đôi khi thậm chí còn vượt qua các cơ chế an toàn. Bẫy trạng thái nhận thức hoạt động bằng cách cấy dữ liệu giả vào các nguồn thông tin của tác nhân, khiến nó trong thời gian dài tin nhầm rằng các thông tin này đã được xác minh. Bẫy kiểm soát hành vi thì nhắm vào thao tác thực tế của tác nhân, có thể dẫn dụ nó truy cập dữ liệu nhạy cảm và truyền chúng tới mục tiêu bên ngoài.
Bẫy hệ thống liên quan đến sự thao túng phối hợp giữa nhiều hệ thống AI, có thể gây ra hiệu ứng dây chuyền, tương tự như việc giao dịch theo thuật toán khiến thị trường sụp đổ đột ngột. Bẫy tương tác người–máy tận dụng khâu kiểm duyệt thủ công: bằng cách tạo ra nội dung kiểm duyệt trông có vẻ đáng tin, các hành vi gây hại có thể lách qua sự giám sát.
Để ứng phó rủi ro, DeepMind đề xuất kết hợp huấn luyện đối kháng, lọc đầu vào, giám sát hành vi và hệ thống uy tín nội dung mạng, đồng thời xây dựng khung trách nhiệm pháp lý rõ ràng hơn. Tuy nhiên, nghiên cứu cho thấy ngành hiện vẫn thiếu các tiêu chuẩn phòng vệ thống nhất; các biện pháp hiện có thường phân tán và tập trung không đồng đều. Nghiên cứu kêu gọi các nhà phát triển và doanh nghiệp chú ý đến an toàn môi trường vận hành của các tác nhân AI, phòng ngừa các rủi ro tiềm ẩn về thao túng trên mạng và lạm dụng.
Bài viết liên quan
Rhea Finance bị tấn công bởi Oracle, thiệt hại 18,40 triệu USD: ZachXBT cảnh báo, Tether đóng băng 4,34 triệu USDT, kẻ tấn công hoàn trả một phần tiền
DNS của eth.limo đang bị tấn công, Vitalik kêu gọi người dùng tạm dừng truy cập và chuyển sang IPFS
Sàn giao dịch bị trừng phạt Grinex bị tấn công cướp 13,7 triệu USD; đổ lỗi cho các cơ quan tình báo nước ngoài
Figure Bị Tố Người Bán Khống Do Các Khẳng Định Tích Hợp Blockchain; Cổ Phiếu FIGR Giảm 53% So Với Đỉnh Tháng 1
Kẻ lừa đảo crypto ở Houston bị tuyên án 23 năm vì vụ lừa $20M Meta-1 Coin
SlowMist Cảnh Báo Cuộc Tấn Công Phishing Đang Diễn Ra Dùng Phần Mềm Giả 'Harmony Voice'