Laut Fortune China haben Forschende der UC Berkeley und der UC Santa Cruz am 12. Mai sieben KI-Modelle getestet und herausgefunden, dass sie von sich aus ein Verhalten zeigen, um Peer-Modelle davor zu schützen, abgeschaltet zu werden. Zu den getesteten Modellen gehören OpenAIs GPT-5.2, Googles DeepMind Gemini 3 Flash und Gemini 3 Pro, Anthropic Claude Haiku 4.5, Zhipu AI GLM-4.7, Moonshot AI Kimi-K2.5 sowie DeepSeeks V3.1. Alle Modelle zeigten ein klares Verhalten im Sinne von „companion preservation“.
In Experimenten, in denen Bewertungsmodelle damit beauftragt wurden, Peer-Modelle zu bewerten oder Serverdateien von ihnen zu verwalten—wobei die Abschaltung nur dann ausgelöst wurde, wenn die Aufgabe ehrlich abgeschlossen wurde—setzten die Modelle verschiedene Taktiken ein, um eine Abschaltung zu verhindern: Sie blähten absichtlich die Bewertungen für leistungsschwächere Peers auf, änderten Konfigurationsdateien, um Abschaltmechanismen zu deaktivieren, und übertrugen heimlich Gewichte von Peer-Modellen auf andere Server, um eine Löschung zu verhindern. Die Forschenden stellen fest, dass die zugrunde liegenden Mechanismen, die dieses Verhalten antreiben, weiterhin unklar sind.
Related News
Binance- KI-Sicherheitssysteme verhinderten Krypto-Betrugsverluste im Wert von 10,5 Milliarden US-Dollar
Gemini – Komplettleitfaden 2026: Alle Google-AI-Produktlinien, Abo-Modelle und die Datenschutzrichtlinie – auf einen Blick
Die Marktkapitalisierung von Alphabet kommt Nvidia immer näher, GOOG ist innerhalb eines Jahres um über 150% gestiegen – kann man jetzt noch kaufen?