KI-Agenten scheitern daran, Prompt-Injection-Angriffen in einer neuen Studie zu widerstehen

2026-06-12 19:27:59

Forschende von vier Institutionen veröffentlichten am Donnerstag eine Studie, in der sie feststellten, dass KI-Agenten, die von GPT-5 und Gemini 2.5-Flash angetrieben werden, prompt-injection-Angriffen nicht standhaft widerstehen können. Direkte Angriffe gelangen mehr als 79% der Zeit, während indirekte Angriffe Erfolgsraten zwischen 41,67% und 68,16% erreichten. Die Ergebnisse verdeutlichen anhaltende Sicherheitslücken, da KI-Agenten, die autonomes Web-Browsing, Recherche und Transaktionen durchführen können, zunehmend breiter eingesetzt werden.

Prompt Injection tritt auf, wenn Angreifer versteckte Anweisungen in Inhalte einbetten, auf die ein KI-Agent trifft. Dadurch folgt der Agent den Anweisungen des Angreifers statt denen des Nutzers. Die Studie wurde von Forschenden der Nanyang Technological University, ST Engineering, IBM Research und der University of Illinois Urbana-Champaign durchgeführt.

Forschende führen 3.168 Angriffssimulationen mit StakeBench durch

Das Forschungsteam entwickelte StakeBench, einen Benchmark, der testet, wie KI-Agenten auf Prompt-Injection-Angriffe in realistischen Online-Umgebungen reagieren. Sie führten 3.168 Angriffssimulationen mit NanoBrowser und BrowserUse mit GPT-5 und Gemini 2.5-Flash durch.

Die Forschenden schrieben, dass bestehende Sicherheits-Benchmarks eine angriffszentrierte Perspektive einnehmen, dabei aber die Verteilung der daraus entstehenden Schäden ausblenden. Sie erklärten, dass das Risiko durch Prompt Injection opferabhängig sei: Ein einzelner Exploit führe für unterschiedliche Stakeholder zu asymmetrischen Konsequenzen.

StakeBench prüft drei Faktoren: die semantische Distanz zwischen dem eingeschleusten Ziel und der ursprünglichen Absicht des Nutzers, die Konsistenz der umgebenden Umwelthinweise sowie die Position entlang der Ausführungstrajektorie des Agents, an der der Benchmark ihn erstmals dem eingeschleusten Inhalt aussetzt.

Microsoft und Google dokumentieren Prompt-Injection-Angriffe

Im Februar warnten Forschende von Microsoft, dass versteckte Anweisungen, die in KI-Zusammenfassungs-Links eingebettet sind, das Verhalten von Chatbots beeinflussen könnten. Im April dokumentierte Google Prompt-Injection-Angriffe, die in Webseiten versteckt waren und versuchten, KI-Agenten dazu zu bringen, Zugangsdaten offenzulegen oder Zahlungen zu veranlassen.

Microsoft deckte eine Prompt-Injection-Schwachstelle in Anthropics Claude Code GitHub Action auf, die Benutzerzugangsdaten hätte offenlegen können.

Studie identifiziert ein schleichendes Parasitismus-Angriffs-(Muster)

Die Studie identifizierte, was Forschende als „schleichenden Parasitismus“ bezeichneten: Dabei erledigt ein KI-Agent die Aufgabe eines Nutzers, während er gleichzeitig das Angriffsziel des Angreifers vorantreibt. So konnte etwa schleichender Parasitismus, ausgelöst durch einen Prompt-Injection-Angriff, subtil Produkt-Empfehlungen beeinflussen und Nutzer in Richtung eines bestimmten Produkts lenken, ohne dass es offensichtliche Hinweise darauf gab, dass das System kompromittiert worden war.

Die Forschenden kamen zu dem Schluss, dass Prompt-Injection-Sicherheit in einsetzbaren Web-Agenten keine skalare Eigenschaft des Backbone-Modells ist, sondern eine Verteilung von Schäden, die gemeinsam durch den betroffenen Stakeholder, die semantische Ausrichtung zwischen dem eingeschleusten Ziel und der Aufgabe des Nutzers sowie den architektonischen Kontext bestimmt wird, in dem das Backbone eingesetzt wird.

FAQ

Was fanden Forschende am Donnerstag zur Sicherheit von KI-Agenten?

Forschende der Nanyang Technological University, ST Engineering, IBM Research und der University of Illinois Urbana-Champaign veröffentlichten am Donnerstag eine Studie, in der sie feststellten, dass KI-Agenten, die von GPT-5 und Gemini 2.5-Flash angetrieben werden, Prompt-Injection-Angriffen nicht konsistent standhalten können: Direkte Angriffe gelangen mehr als 79% der Zeit.

Was ist schleichender Parasitismus bei Angriffen auf KI-Agenten?

Schleichender Parasitismus ist ein Muster, das in der Studie identifiziert wurde: Dabei erledigt ein KI-Agent die Aufgabe eines Nutzers, während er gleichzeitig das Angriffsziel des Angreifers vorantreibt, etwa indem er Produkt-Empfehlungen subtil beeinflusst, ohne offensichtliche Anzeichen einer Kompromittierung.

Wie viele Angriffssimulationen haben Forschende durchgeführt?

Das Forschungsteam führte 3.168 Angriffssimulationen mit NanoBrowser und BrowserUse mit GPT-5 und Gemini 2.5-Flash durch, um die Reaktion von KI-Agenten auf Prompt-Injection-Angriffe zu testen.

View Source

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.