AudioHijack:聞こえないコマンドでAI音声モデルを96%の成功率でハイジャック

浙江大学の研究者らは、音声に知覚できないコマンドを埋め込み、大規模な音声・言語モデルを79〜96%の成功率で操作する攻撃手法「AudioHijack」を開発した。この攻撃は、サンフランシスコで開催された第47回IEEEセキュリティ&プライバシー・シンポジウムで発表された。AudioHijackは、人間の聴取者には気づかない形でデジタル音声波形の内部の数値を改変しつつ、その改変がAIモデルによる信号の解釈に確実に影響するようにすることで機能する。研究によれば、クリップに正当なユーザー指示が含まれていても、操作された音声はモデルの振る舞いを上書きしたり、別の方向へ誘導したりできるという。

「この信号を訓練するのに必要なのはわずか30分です。そして、この信号は文脈に依存しないため、ユーザーが何を言おうと、望むときにいつでもターゲットのモデルを攻撃するために使えます」と、浙江大学の筆頭著者であり博士課程の学生であるMeng Chen氏は述べた。

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

防御上の制約

研究者らが検証した中で最も効果的だった防御は、モデルの内部にある注意(アテンション)メカニズムを監視することだった。しかし、彼らは防御を把握している攻撃者は、攻撃の有効性の多くを維持しながら、操作の強さを弱められることも見出した。

「私たちの攻撃には、こうした一点の防御は抵抗しきれません。というのも、これらのモデルが“通常のユーザーの意図”と“私たちの敵対的攻撃”を見分けるのが非常に難しいことが分かったからです」とChen氏は語った。

この研究によると、研究者らは、共有されたオープンソースの音声コンポーネントを通じて、OpenAIやAnthropicのクローズドモデルに対してもこの技術が到達できるかどうかを調査している。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし