AudioHijack: Нечутні команди перехоплюють голосові моделі ШІ з 96% рівнем успішності

OliverGrant

2026-05-26 18:23:41

Дослідники з Чжецзянського університету розробили AudioHijack — метод атаки, який вбудовує непомітні команди в аудіо, щоб маніпулювати великими аудіо-мовними моделями з 79–96% рівнем успішності. Атака була представлена на 47-му симпозіумі IEEE з безпеки та приватності в Сан-Франциско. AudioHijack працює шляхом зміни числових значень у цифрових аудіохвилях так, що це непомітно для людських слухачів, але все ж впливає на те, як моделі ШІ інтерпретують сигнал. Маніпульоване аудіо може скасувати або перенаправити поведінку моделі навіть тоді, коли разом із кліпом містяться легітимні інструкції користувача, зазначають у дослідженні.

«Навчання цього сигналу займає лише пів години, а потім, оскільки цей сигнал не залежить від контексту, його можна використати для атаки на цільову модель щоразу, коли захочете, незалежно від того, що каже користувач», — сказав Мен Цзян, провідний автор і докторант Чжецзянського університету.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Обмеження захисту

Спостереження за внутрішніми механізмами уваги моделі було найефективнішим захистом, який перевірили дослідники. Водночас вони з’ясували, що нападники, які обізнані із цим захистом, можуть зменшити силу маніпуляції, зберігаючи значну частину ефективності атаки.

«Ці захисти, сфокусовані на одній точці, не здатні протистояти нашій атаці, бо ми виявили: для цих моделей дуже складно відрізнити звичайний задум користувача від нашої ворожої атаки», — сказав Чен.

Згідно з дослідженням, команда вивчає, чи може ця техніка дістатися закритих моделей OpenAI та Anthropic через спільні компоненти відкритого аудіо.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

3год тому

Атака AudioHijack викрадає моделі голосу ШІ з показником успішності до 96%, свідчить дослідження

6год тому

StepAudio 2.5 від StepFun виходить у лідери за п’ятьма бенчмарками Voice AI у режимі реального часу, обганяючи GPT Realtime 1.5

7год тому

AI-агенти, які обробляють $73M у крипто, потребують системної безпеки — дослідники попереджають

Пов'язані статті

Безпека AI-агентів потребує системного захисту: Google і Meta попереджають

Oliver Grant7год тому

Хакер iPhone Джордж Хотц: AI кодувальні агенти — це майбутня катастрофа

Market Whisper16год тому