AudioHijack: Unhörbare Befehle kapern KI-Sprachmodelle mit 96% Erfolgsquote

OliverGrant

Forscher der Zhejiang University haben eine Angriffsmethode namens AudioHijack entwickelt, die unauffällige Befehle in Audio einbettet, um große Audio-Sprachmodelle mit einer Erfolgsrate von 79–96% zu manipulieren. Der Angriff wurde auf dem 47. IEEE Symposium on Security and Privacy in San Francisco vorgestellt. AudioHijack funktioniert, indem numerische Werte in digitalen Audiowellen so verändert werden, dass sie für menschliche Zuhörer nicht wahrnehmbar sind, aber dennoch beeinflussen, wie KI-Modelle das Signal interpretieren. Das manipulierte Audio kann das Verhalten eines Modells überschreiben oder umleiten, selbst wenn legitime Nutzeranweisungen zusammen mit dem Clip enthalten sind, so die Studie.

„Man braucht nur eine halbe Stunde, um dieses Signal zu trainieren, und dann kann man, weil dieses Signal kontext-unabhängig ist, damit das Zielmodell jederzeit angreifen, egal was der Nutzer sagt“, sagte Meng Chen, Erstautor und Ph.D.-Student an der Zhejiang University.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Verteidigungsgrenzen

Das Ausspähen der internen Aufmerksamkeitsmechanismen eines Modells war die effektivste Verteidigung, die die Forscher getestet haben. Allerdings fanden sie auch, dass Angreifer, die von der Verteidigung wissen, die Stärke der Manipulation verringern können, während sie einen Großteil der Wirksamkeit des Angriffs beibehalten.

„Diese Ein-Punkt-Verteidigungen haben Schwierigkeiten, unserem Angriff zu widerstehen, weil wir herausgefunden haben, dass es für diese Modelle sehr schwer ist, die normale Nutzerintention und unseren Angriff des Gegners zu unterscheiden“, sagte Chen.

Laut der Studie untersuchen die Forscher, ob die Technik geschlossene Modelle von OpenAI und Anthropic über gemeinsam genutzte Open-Source-Audio-Komponenten erreichen kann.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare