Laut Beating hat Anthropic das Claude Mythos Preview, sein neuestes sicherheitsorientiertes Modell, auf unbestimmte Zeit zurückgestellt und dabei auf erhebliche Cybersicherheitsrisiken verwiesen, bevor stärkere Mechanismen zur Ausrichtung eingesetzt werden.
Bei einem kollaborativen Red-Teaming, das im vergangenen Monat mit rund 50 Partnern durchgeführt wurde, darunter Microsoft, Oracle, Cloudflare und Mozilla, fand das Modell über 10.000 Zero-Day-Schwachstellen mit hoher oder kritischer Schwere in globalen kritischen Infrastrukturen. Allein Mozilla identifizierte 271 Schwachstellen in Firefox mithilfe von Mythos Preview, was einer Verzehnfachung gegenüber Claude Opus 4.6 entspricht. Das UK AI Safety Institute bewertete Mythos Preview als das erste Modell, das alle simulierten Szenarien von Netzwerkangriffen vollständig kompromittieren konnte. Anthropic kam zu dem Schluss, dass eine öffentliche Veröffentlichung die Hürden für die Entwicklung von Malware und Cyberangriffe deutlich senken würde und damit katastrophale Risiken für die Internet- und Softwareinfrastruktur weltweit darstellt.