AudioHijack: Các lệnh không thể nghe được chiếm quyền các mô hình giọng nói AI với tỷ lệ thành công 96%

Các nhà nghiên cứu tại Đại học Chiết Giang đã phát triển AudioHijack, một phương pháp tấn công nhúng các lệnh không thể nhận biết vào âm thanh để thao túng các mô hình ngôn ngữ âm thanh lớn với tỷ lệ thành công 79–96%. Cuộc tấn công được trình bày tại Hội nghị IEEE Symposium on Security and Privacy lần thứ 47 ở San Francisco. AudioHijack hoạt động bằng cách sửa đổi các giá trị số bên trong các dạng sóng âm thanh số theo những cách không thể nhận biết được đối với người nghe, nhưng vẫn ảnh hưởng đến cách các mô hình AI diễn giải tín hiệu. Theo nghiên cứu, âm thanh bị thao túng có thể ghi đè hoặc chuyển hướng hành vi của mô hình ngay cả khi có kèm các chỉ dẫn hợp pháp của người dùng trong cùng đoạn clip.

“Chỉ mất nửa giờ để huấn luyện tín hiệu này, và sau đó, vì tín hiệu này không phụ thuộc ngữ cảnh, bạn có thể dùng nó để tấn công mô hình mục tiêu bất cứ lúc nào, bất kể người dùng nói gì,” Meng Chen, tác giả chính và là nghiên cứu sinh tại Đại học Chiết Giang, cho biết.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Hạn chế của cơ chế phòng thủ

Việc theo dõi các cơ chế chú ý nội bộ của mô hình là biện pháp phòng thủ hiệu quả nhất mà các nhà nghiên cứu thử nghiệm. Tuy nhiên, họ cũng phát hiện rằng kẻ tấn công nhận biết được cơ chế phòng thủ có thể giảm mức độ thao túng trong khi vẫn duy trì phần lớn hiệu quả của cuộc tấn công.

“Các biện pháp phòng thủ chỉ tập trung vào một điểm này gặp khó khăn trong việc chống lại cuộc tấn công của chúng tôi vì chúng tôi phát hiện rất khó để các mô hình này phân biệt được ý định người dùng bình thường và cuộc tấn công của đối thủ,” Chen nói.

Theo nghiên cứu, các nhà nghiên cứu đang điều tra liệu kỹ thuật này có thể áp dụng để tấn công các mô hình đóng từ OpenAI và Anthropic thông qua các thành phần âm thanh mã nguồn mở dùng chung hay không.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận