Forschende von vier Institutionen veröffentlichten am Donnerstag eine Studie, in der sie feststellten, dass KI-Agenten, die von GPT-5 und Gemini 2.5-Flash angetrieben werden, prompt-injection-Angriffen nicht standhaft widerstehen können. Direkte Angriffe gelangen mehr als 79% der Zeit, während indirekte Angriffe Erfolgsraten zwischen 41,67% und 68,16% erreichten. Die Ergebnisse verdeutlichen anhaltende Sicherheitslücken, da KI-Agenten, die autonomes Web-Browsing, Recherche und Transaktionen durchführen können, zunehmend breiter eingesetzt werden.
Prompt Injection tritt auf, wenn Angreifer versteckte Anweisungen in Inhalte einbetten, auf die ein KI-Agent trifft. Dadurch folgt der Agent den Anweisungen des Angreifers statt denen des Nutzers. Die Studie wurde von Forschenden der Nanyang Technological University, ST Engineering, IBM Research und der University of Illinois Urbana-Champaign durchgeführt.
Das Forschungsteam entwickelte StakeBench, einen Benchmark, der testet, wie KI-Agenten auf Prompt-Injection-Angriffe in realistischen Online-Umgebungen reagieren. Sie führten 3.168 Angriffssimulationen mit NanoBrowser und BrowserUse mit GPT-5 und Gemini 2.5-Flash durch.
Die Forschenden schrieben, dass bestehende Sicherheits-Benchmarks eine angriffszentrierte Perspektive einnehmen, dabei aber die Verteilung der daraus entstehenden Schäden ausblenden. Sie erklärten, dass das Risiko durch Prompt Injection opferabhängig sei: Ein einzelner Exploit führe für unterschiedliche Stakeholder zu asymmetrischen Konsequenzen.
StakeBench prüft drei Faktoren: die semantische Distanz zwischen dem eingeschleusten Ziel und der ursprünglichen Absicht des Nutzers, die Konsistenz der umgebenden Umwelthinweise sowie die Position entlang der Ausführungstrajektorie des Agents, an der der Benchmark ihn erstmals dem eingeschleusten Inhalt aussetzt.
Im Februar warnten Forschende von Microsoft, dass versteckte Anweisungen, die in KI-Zusammenfassungs-Links eingebettet sind, das Verhalten von Chatbots beeinflussen könnten. Im April dokumentierte Google Prompt-Injection-Angriffe, die in Webseiten versteckt waren und versuchten, KI-Agenten dazu zu bringen, Zugangsdaten offenzulegen oder Zahlungen zu veranlassen.
Microsoft deckte eine Prompt-Injection-Schwachstelle in Anthropics Claude Code GitHub Action auf, die Benutzerzugangsdaten hätte offenlegen können.
Die Studie identifizierte, was Forschende als „schleichenden Parasitismus“ bezeichneten: Dabei erledigt ein KI-Agent die Aufgabe eines Nutzers, während er gleichzeitig das Angriffsziel des Angreifers vorantreibt. So konnte etwa schleichender Parasitismus, ausgelöst durch einen Prompt-Injection-Angriff, subtil Produkt-Empfehlungen beeinflussen und Nutzer in Richtung eines bestimmten Produkts lenken, ohne dass es offensichtliche Hinweise darauf gab, dass das System kompromittiert worden war.
Die Forschenden kamen zu dem Schluss, dass Prompt-Injection-Sicherheit in einsetzbaren Web-Agenten keine skalare Eigenschaft des Backbone-Modells ist, sondern eine Verteilung von Schäden, die gemeinsam durch den betroffenen Stakeholder, die semantische Ausrichtung zwischen dem eingeschleusten Ziel und der Aufgabe des Nutzers sowie den architektonischen Kontext bestimmt wird, in dem das Backbone eingesetzt wird.
Was fanden Forschende am Donnerstag zur Sicherheit von KI-Agenten?
Forschende der Nanyang Technological University, ST Engineering, IBM Research und der University of Illinois Urbana-Champaign veröffentlichten am Donnerstag eine Studie, in der sie feststellten, dass KI-Agenten, die von GPT-5 und Gemini 2.5-Flash angetrieben werden, Prompt-Injection-Angriffen nicht konsistent standhalten können: Direkte Angriffe gelangen mehr als 79% der Zeit.
Was ist schleichender Parasitismus bei Angriffen auf KI-Agenten?
Schleichender Parasitismus ist ein Muster, das in der Studie identifiziert wurde: Dabei erledigt ein KI-Agent die Aufgabe eines Nutzers, während er gleichzeitig das Angriffsziel des Angreifers vorantreibt, etwa indem er Produkt-Empfehlungen subtil beeinflusst, ohne offensichtliche Anzeichen einer Kompromittierung.
Wie viele Angriffssimulationen haben Forschende durchgeführt?
Das Forschungsteam führte 3.168 Angriffssimulationen mit NanoBrowser und BrowserUse mit GPT-5 und Gemini 2.5-Flash durch, um die Reaktion von KI-Agenten auf Prompt-Injection-Angriffe zu testen.
Related News
Google verklagt chinesische Gruppe wegen Gemini-gestützter Phishing-Betrügereien
Feedzai bringt die IQ-Score-Plattform für Banken an den Start, die mit einem Anstieg von KI-Betrug konfrontiert sind
MIT-Studie: KI-Faktencheck verbessert die Genauigkeit um 21 %, aber senkt unbegleitete Fähigkeiten
KI-gestörter Wurm passt Angriffstaktiken in Echtzeit an, Forscher zeigen es vor