AudioHijack: Нечутні команди перехоплюють голосові моделі ШІ з 96% рівнем успішності

Дослідники з Чжецзянського університету розробили AudioHijack — метод атаки, який вбудовує непомітні команди в аудіо, щоб маніпулювати великими аудіо-мовними моделями з 79–96% рівнем успішності. Атака була представлена на 47-му симпозіумі IEEE з безпеки та приватності в Сан-Франциско. AudioHijack працює шляхом зміни числових значень у цифрових аудіохвилях так, що це непомітно для людських слухачів, але все ж впливає на те, як моделі ШІ інтерпретують сигнал. Маніпульоване аудіо може скасувати або перенаправити поведінку моделі навіть тоді, коли разом із кліпом містяться легітимні інструкції користувача, зазначають у дослідженні.

«Навчання цього сигналу займає лише пів години, а потім, оскільки цей сигнал не залежить від контексту, його можна використати для атаки на цільову модель щоразу, коли захочете, незалежно від того, що каже користувач», — сказав Мен Цзян, провідний автор і докторант Чжецзянського університету.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Обмеження захисту

Спостереження за внутрішніми механізмами уваги моделі було найефективнішим захистом, який перевірили дослідники. Водночас вони з’ясували, що нападники, які обізнані із цим захистом, можуть зменшити силу маніпуляції, зберігаючи значну частину ефективності атаки.

«Ці захисти, сфокусовані на одній точці, не здатні протистояти нашій атаці, бо ми виявили: для цих моделей дуже складно відрізнити звичайний задум користувача від нашої ворожої атаки», — сказав Чен.

Згідно з дослідженням, команда вивчає, чи може ця техніка дістатися закритих моделей OpenAI та Anthropic через спільні компоненти відкритого аудіо.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів