Forscher der Zhejiang University haben eine Angriffsmethode namens AudioHijack entwickelt, die unauffällige Befehle in Audio einbettet, um große Audio-Sprachmodelle mit einer Erfolgsrate von 79–96% zu manipulieren. Der Angriff wurde auf dem 47. IEEE Symposium on Security and Privacy in San Francisco vorgestellt. AudioHijack funktioniert, indem numerische Werte in digitalen Audiowellen so verändert werden, dass sie für menschliche Zuhörer nicht wahrnehmbar sind, aber dennoch beeinflussen, wie KI-Modelle das Signal interpretieren. Das manipulierte Audio kann das Verhalten eines Modells überschreiben oder umleiten, selbst wenn legitime Nutzeranweisungen zusammen mit dem Clip enthalten sind, so die Studie.
„Man braucht nur eine halbe Stunde, um dieses Signal zu trainieren, und dann kann man, weil dieses Signal kontext-unabhängig ist, damit das Zielmodell jederzeit angreifen, egal was der Nutzer sagt“, sagte Meng Chen, Erstautor und Ph.D.-Student an der Zhejiang University.
How AudioHijack Differs from Traditional Attacks
AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.
Capabilities and Tested Systems
Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.
Delivery Methods
Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.
Verteidigungsgrenzen
Das Ausspähen der internen Aufmerksamkeitsmechanismen eines Modells war die effektivste Verteidigung, die die Forscher getestet haben. Allerdings fanden sie auch, dass Angreifer, die von der Verteidigung wissen, die Stärke der Manipulation verringern können, während sie einen Großteil der Wirksamkeit des Angriffs beibehalten.
„Diese Ein-Punkt-Verteidigungen haben Schwierigkeiten, unserem Angriff zu widerstehen, weil wir herausgefunden haben, dass es für diese Modelle sehr schwer ist, die normale Nutzerintention und unseren Angriff des Gegners zu unterscheiden“, sagte Chen.
Laut der Studie untersuchen die Forscher, ob die Technik geschlossene Modelle von OpenAI und Anthropic über gemeinsam genutzte Open-Source-Audio-Komponenten erreichen kann.