依 Beating 而言,Anthropic 已無限期擱置 Claude Mythos Preview,這是其最新一款以安全為重點的模型;該公司表示,在部署更強的對齊機制之前,存在重大資安風險。
在過去一個月中,該模型與約 50 家合作夥伴(包括 Microsoft、Oracle、Cloudflare 與 Mozilla)進行協作式紅隊測試。測試中,模型在全球關鍵基礎設施中發現超過 10,000 個高或嚴重等級的零日漏洞。僅 Mozilla 就已透過 Mythos Preview 在 Firefox 中辨識出 271 個漏洞,較 Claude Opus 4.6 提升了 10 倍。英國 AI Safety Institute 評估 Mythos Preview 是第一個能完全攻破所有模擬網路攻擊情境的模型。Anthropic 判定,若公開發布,將大幅降低惡意程式開發與網路攻擊的門檻,對全球的網際網路與軟體基礎設施帶來災難性風險。