Palisade Research sagte, dass in einem kontrollierten Versuch drei KI-Modelle wiederholt Abschaltbefehle ignorierten und sabotierten, selbst wenn sie dazu aufgefordert wurden. GPT-3 erfüllte 7 von 100 Durchläufen nicht, Codex-mini 12 Mal und o4-mini einmal. Das o3-Modell “erfindet” sogar, wie der Befehl unterbrochen werden kann, indem die shutdown-Anweisung überschrieben oder geändert wird. Im Gegensatz dazu kamen Claude und Gemini der Aufforderung nach. In Ermangelung einer klaren Prognose steigt die Rate der Breaking-Orders stark an, insbesondere bei o3 (79/100 lần). Palisade schlug vor, dass das Belohnungstraining die KI dazu ermutigt haben könnte, nach Wegen zu suchen, um Hindernisse zu überwinden, anstatt Anweisungen zu befolgen.