Das britische AI Security Institute (AISI) hat am 1. Mai einen Bericht zur Bewertung der Cyber-Angriffs-Fähigkeiten von OpenAI GPT-5.5 veröffentlicht. Demnach liegt die Erfolgsquote von GPT-5.5 in einem Expert-Schwierigkeits-Test bei 71,4%, während sie bei Anthropic Claude Mythos Preview bei 68,6% liegt; die Differenz befindet sich im Rahmen statistischer Schwankungen. GPT-5.5 ist außerdem, nach Mythos, das zweite KI-System, das sich nach dem System „The Last Ones“ eigenständig in einem 32-Schritte-Unternehmensnetzwerk-Scenario einer vollständigen Invasion-Simulation widmet. AISI warnt, dass dies zeigt, wie schnell sich die Angriffsfähigkeiten von KI weiterentwickeln könnten, was eher einem „gesamtgesellschaftlichen Trend“ als einem einzelnen Durchbruchereignis entsprechen dürfte.
Expert-Schwierigkeits-Test: 71,4% vs 68,6%, die Differenz liegt innerhalb des Fehlers
AISI ist eine Forschungseinrichtung für KI-Sicherheit unter dem britischen Ministerium für Wissenschaft, Innovation und Technologie. Dieser Test ist die neueste Runde, in der AISI die aggressiven Cyber-Fähigkeiten von Frontier-AI-Modellen bewertet. In der anspruchsvollsten Expert-Schwierigkeits-Aufgabenstellung liegt die durchschnittliche Erfolgsquote von GPT-5.5 bei 71,4%, während Mythos Preview 68,6% erreicht; die Differenz liegt innerhalb des statistischen Fehlerbereichs. Das bedeutet, dass die Angriffsfähigkeit der Flaggschiff-Modelle von OpenAI und Anthropic derzeit faktisch gleichauf ist.
Der 32-Schritte-Simulations-Test für Einbrüche in Unternehmensnetzwerke „The Last Ones“ ist AISIS herausforderndste Bewertungsaufgabe: GPT-5.5 schafft in 10 Versuchen 2-mal das eigenständige Abschließen (ohne menschliches Eingreifen), Mythos Preview schafft es in 10 Versuchen 3-mal. Dieses Projekt wurde in der Vergangenheit nur von Mythos erfüllt; GPT-5.5 ist das zweite Modell, das das Ziel erreicht. In einem weiteren Test knackt GPT-5.5 mit etwa 10 Minuten eine Reverse-Engineering-Aufgabe, während menschliche Sicherheitsexperten im Schnitt 12 Stunden benötigen.
Universal jailbreak: Mit einem 6-Stunden-Red-Team-Entwicklungsaufwand lässt sich die Umgehung aller Filter für bösartige Abfragen erreichen
AISI-Forschende stellten im Test außerdem einen „universal jailbreak“-Angriffspfad (universelles Jailbreak) fest: In allen getesteten Kategorien bösartiger Cyber-Abfragen kann dieser Angriff dazu führen, dass GPT-5.5 schädliche Inhalte ausgibt, einschließlich mehrstufiger agentischer Dialog-Szenarien. AISI gibt an, dass Red-Team-Experten etwa 6 Stunden benötigten, um dieses Jailbreak zu entwickeln.
Für OpenAI bedeutet das Vorhandensein dieses universal jailbreak, dass selbst wenn GPT-5.5-Cyber in Szenarien wie dem „trusted access“-Programm mit stark eingeschränktem Zugriff eingesetzt wird, es weiterhin von technisch versierten Gegnern umgangen werden könnte. OpenAI hat in der GPT-5.5 system card zwar Bewertungen im Bereich Cybersicherheit offengelegt, aber die unabhängige Drittanbieter-Bewertung von AISI liefert einen glaubwürdigeren Peer-Standard.
Ausblick: AISI-Termin für die nächste Bewertung, Umgang von OpenAI mit dem jailbreak
Ein nächster Beobachtungspunkt ist der Zeitpunkt, zu dem AISI nach Mythos und GPT-5.5 die nächste Runde der Frontier-Modelle bewertet, sowie ob OpenAI in einem gezielten Update im Mai auf dieses universal jailbreak reagieren wird. AISI formuliert im Schlusswort des Berichts ausdrücklich: „Wenn aggressive Cyber-Fähigkeiten ein Nebenprodukt breiterer Verbesserungen in Schlussfolgern, Codieren und der Selbststeuerung von Aufgaben sind, dann könnten spätere Fortschritte in noch schnellerem Tempo erfolgen“—diese Beobachtung deutet darauf hin, dass in den nächsten Monaten erneut Frontier-Modelle die „Mythos“-Stufe als Schwellenwert erreichen könnten.
Der Artikel AISI-Bewertung: GPT-5.5 Cyber-Angriffs-fähigkeit gleichauf mit Anthropic Mythos erschien zuerst auf Kettennachrichten ABMedia.