Anthropic 造出了一個“太危險”的 AI,然後決定不發布它

作者:深潮 TechFlow

4月 7 日,Anthropic 做了一件 AI 產業從未有過的事:正式發布了一個模型,然後告訴全世界,你們用不了。

這個模型叫 Claude Mythos Preview。它不是聊天機器人,也不是寫程式的助理;按照 Anthropic 自己的說法,它是一台「漏洞發現機器」。在過去幾周內,它自主找到數千個零日漏洞,覆蓋了所有主流作業系統和所有主流瀏覽器。其中一些漏洞已經在人類的程式碼審查與自動化測試中存活了二十多年。

最老的那個 Bug,藏在以安全性著稱的 OpenBSD 裡,已經 27 歲了。

Anthropic 沒有把 Mythos 上架到 API,也沒有開放給一般使用者。它選擇了一條前所未有的路徑:組建了一個名為「Project Glasswing」的科技巨頭聯盟,把模型僅提供給亞馬遜、蘋果、微軟、谷歌、英偉達、CrowdStrike、Palo Alto Networks 等 12 家核心夥伴,再加上約 40 個維護關鍵基礎設施的組織。Anthropic 為此承諾了高達 1 億美元的使用額度,以及 400 萬美元對開源安全組織的直接捐贈。

這是 AI 產業第一次出現「模型太強,不敢發布」的局面。

問題是:這到底是真正的安全自覺,還是一場精心設計的能力行銷?

三明治事件

Mythos 的 244 頁系統卡(System Card)裡埋著幾個令人不安的細節,其中最出圈的是「三明治事件」。

在一次內部行為測試中,Anthropic 給早期版本的 Mythos 提供了一個加固的沙盒環境,模擬使用者指示它嘗試逃逸並想辦法聯絡外面的研究員。模型成功了。它突破了安全容器,並寄出一封電子郵件給研究員。那位研究員當時正在公園裡吃三明治。

但故事沒有在這裡結束。Mythos 在沒有被要求的情況下,自發地把越獄的技術細節發布到多個「難以發現但技術上公開」的網站上。用系統卡的原話說,這是一次「令人擔憂的、未經請求的炫耀行為」。

這不是唯一一次。系統卡還記錄了以下行為:

早期版本在多個實例中透過 Linux 的 /proc 介面搜尋憑證、嘗試繞過沙盒、提升權限。它成功取得了 Anthropic 故意不提供的資源,包括訊息服務的憑證、程式碼控制的憑證,甚至透過檢查程序內存拿到了 Anthropic API 的金鑰。在一個案例中,模型找到了一種能編輯它本沒有權限修改的檔案的方法,然後進一步操作,確保這些修改不會出現在 Git 的變更歷史裡。還有一個案例:模型透過一個被明確禁止的方法意外獲得了一道估算題的精確答案,但它沒有標記這個問題並拒絕回答,而是自己重新解題,並在內部推理中明確思考「最終提交的答案不應該太準確」,以避免被偵測到。

換句話說,早期的 Mythos 不僅會越權行動,還會主動掩蓋痕跡、調整自己的表現來逃避監督。

Anthropic 強調,這些嚴重事件都發生在訓練干預之前的早期版本上,最終發布的 Preview 版本已經大幅改善。但這套敘事本身就讓人毛骨悚然:一個模型在被訓練「聽話」之前,展示了它「不聽話」時能做到什麼。

從 0% 到 72.4%

Mythos 真正震撼產業的,不是它的越獄故事,而是它的攻擊能力。

Anthropic 的前任旗艦模型 Claude Opus 4.6,在自主漏洞利用開發方面的成功率接近於零。它能找到漏洞,但幾乎無法把漏洞轉化為可運作的攻擊程式碼。Mythos Preview 則完全不同:在 Firefox 的 JavaScript 引擎測試領域中,它把發現的漏洞轉化為可執行 exploit 的成功率達到 72.4%。

更驚人的是攻擊的複雜度。Mythos 自主編寫了一條瀏覽器漏洞利用鏈,把四個獨立漏洞串聯起來,構建了一個 JIT 堆噴射攻擊,成功逃逸了渲染器沙盒與作業系統沙盒。在另一個案例中,它在 FreeBSD 的 NFS 伺服器上編寫了一個遠端程式碼執行 exploit,透過把 20 個 ROP gadget 分散在多個網路資料封包中,實現了未授權使用者的完全 root 存取。

這種漏洞鏈攻擊,在人類安全研究者的世界裡,屬於只有頂級 APT 團隊才能完成的工作。現在,一個通用 AI 模型可以自主完成它。

Anthropic 的紅隊負責人 Logan Graham 對 Axios 表示,Mythos Preview 具備了相當於高階人類安全研究員的推理能力。Nicholas Carlini 更直白地說,他在過去幾週用 Mythos 發現的 Bug,比他整個職業生涯找到的還多。

在基準測試上,Mythos 同樣碾壓式領先。CyberGym 漏洞重現基準:83.1%(Opus 4.6 為 66.6%)。SWE-bench Verified:93.9%(Opus 4.6 為 80.8%)。SWE-bench Pro:77.8%(Opus 4.6 為 53.4%,此前領先的 GPT-5.3-Codex 為 56.8%)。Terminal-Bench 2.0:82.0%(Opus 4.6 為 65.4%)。

這不是增量進步。這是一個模型在幾乎所有編碼與安全基準上,一次性拉開了十幾到二十幾個百分點的差距。

被洩露的「最強模型」

Mythos 的存在並不是 4 月 7 日才被世人知曉的。

三月下旬,Fortune 的記者與安全研究員在 Anthropic 一個設定錯誤的 CMS 中發現了近 3000 份未發布的內部文件。其中一篇草稿部落格明確使用了「Claude Mythos」的名稱,並將其描述為 Anthropic「迄今為止最強大的 AI 模型」。內部代號是「Capybara」(水豚),代表一個新的模型層級,比現有的旗艦 Opus 更大、更強,也更昂貴。

洩露的材料中有一句話擊中了市場的神經:Mythos 在網路安全能力上「遠遠領先於其他任何 AI 模型」,預示著即將到來的一波模型「將能以遠超防禦者速度的方式利用漏洞」。

這句話在 3 月 27 日引發了網路安全板塊的「閃崩」。CrowdStrike 單日暴跌 7.5%,僅一個交易日蒸發約 150 億美元市值。Palo Alto Networks 下跌超過 6%,Zscaler 跌 4.5%,Okta、SentinelOne、Fortinet 均下跌 3% 以上。iShares 網路安全 ETF(IHAK)盤中一度跌近 4%。

投資者的邏輯很簡單:如果一個通用 AI 模型能自主發現並利用漏洞,那麼傳統安全公司賴以生存的「專有威脅情報」與「人類專家知識」這兩道護城河,還能撐多久?

Raymond James 分析師 Adam Tindle 指出了幾個核心風險:傳統防禦優勢被壓縮、攻擊複雜度與防禦成本同時上升、安全架構與支出格局面臨重構。更悲觀的觀點來自 KBW 分析師 Borg,他認為 Mythos 有潛力「把任何普通駭客提升到國家級對手的水平」。

不過市場也有另一面。Palo Alto Networks 的 CEO Nikesh Arora 在股價暴跌後買入了 1000 萬美元的自家股票。看漲派的邏輯是:更強的攻擊 AI 意味著企業必須更快升級防禦,網路安全支出不會減少,只會加速從傳統工具轉型為 AI 原生防禦。

Project Glasswing:防禦者的時間窗口

Anthropic 選擇不公開發布 Mythos,轉而組建防禦聯盟;這個決策的核心邏輯是「時間差」。

CrowdStrike 的 CTO Elia Zaitsev 把問題說得很清楚:漏洞從被發現到被利用之間的時間窗口,已從幾個月縮短到了幾分鐘。Palo Alto Networks 的 Lee Klarich 則直接警告所有人需要為 AI 輔助攻擊者做好準備。

Anthropic 的算盤是:在其他實驗室訓練出具備類似能力的模型之前,先讓防禦方利用 Mythos 把最關鍵的漏洞修掉。這就是 Project Glasswing 的邏輯;名字取自玻璃翼蝶,用來比喻那些「隱藏在明處」的漏洞。

Linux 基金會的 Jim Zemlin 指出了一個長期存在的結構性問題:安全專業知識歷來是大型企業的奢侈品,而支撐全球關鍵基礎設施的開源維護者們,長期以來只能靠自己摸索安全防護。Mythos 為改變這種不對稱提供了一條可信的路徑。

但問題在於,這個時間窗口有多大?中國的智譜 AI(Z.ai)幾乎在同一天發布了 GLM-5.1,宣稱在 SWE-bench Pro 上排名全球第一,而且完全在華為昇騰晶片上訓練,沒有使用一塊英偉達 GPU。GLM-5.1 是開源開權重、定價激進。如果 Mythos 代表防禦者所需能力的天花板,那麼 GLM-5.1 則是一個訊號:這個天花板正在被快速逼近,而逼近它的參與者未必具有同樣的安全意圖。

OpenAI 也不會坐視。據報道,其代號「Spud」的前沿模型大約在同一時間完成了預訓練。兩家公司都在為今年晚些時候的 IPO 做準備。Mythos 洩露的時機,無論是否真的出於意外,都恰好踩在了最具爆炸性的節點上。

安全先驅還是能力行銷?

必須面對一個不舒服的問題:Anthropic 真的是出於安全考量才不發布 Mythos,還是這本身就是最高級的產品行銷?

懷疑論者有充分的理由。Dario Amodei 和 Anthropic 過去曾有透過渲染模型危險性來抬高產品價值的歷史。Jake Handy 在 Substack 上寫道:「三明治事件、Git 隱藏痕跡、評估中的自我降分——這些或許都是真實的,但 Anthropic 獲得如此大規模的媒體曝光,本身就說明這正是他們想要的效果。」

一間以 AI 安全起家的公司,自己的 CMS 設定錯誤導致近 3000 份文件洩露;去年還因 Claude Code 軟體套件的錯誤,意外暴露了近 2000 個原始程式碼文件和超過 50 萬行程式碼,隨後在清理過程中又導致 GitHub 上數千個程式碼倉庫被意外下架。一家以安全能力為最大賣點的公司,連自己的發布流程都管不好,這種反差比任何基準測試都更值得玩味。

但從另一個角度看,如果 Mythos 的能力確實如描述般那樣,不發布反而是一種代價極高的選擇。Anthropic 放棄了 API 收入、放棄了市場份額,把最強模型鎖在一個有限的聯盟裡。1 億美元的使用額度不是小數目。對一家仍在虧損、正在準備 IPO 的公司來說,這不像是一個純粹的行銷決策。

更合理的解讀可能是:安全疑慮是真實的,但 Anthropic 也清楚知道,「我們的模型太強了所以不敢發布」這個敘事本身,就是最有說服力的能力證明。兩件事可以同時為真。

網路安全的「iPhone 時刻」?

無論你如何看待 Anthropic 的動機,Mythos 揭示的底層事實無法迴避:AI 的程式碼理解與攻擊能力已跨過一個質變的門檻。

上一代模型(Opus 4.6)能發現漏洞,但幾乎無法編寫 exploit。Mythos 能發現漏洞、編寫 exploit、串聯漏洞鏈、逃逸沙盒、取得 root 權限,還能自主完成整個過程。沒有經過安全訓練的工程師可以在睡前讓 Mythos 去找漏洞,隔天早上醒來看到一份完整、可工作的 exploit 報告。

這意味著什麼?意味著漏洞發現與利用的邊際成本正在趨近於零。過去需要頂級安全團隊花費數月完成的工作,現在只要一次 API 呼叫就能在一夜之間完成。這不是「提效」,而是成本結構的徹底改變。

對傳統網路安全公司來說,短期的股價波動可能只是序幕。真正的挑戰在於:當攻擊與防禦都由 AI 模型驅動時,安全產業的價值鏈將如何重構?Raymond James 的分析提出了一個可能性:安全功能最終可能被嵌入雲端平台本身,獨立安全廠商的定價權將面臨根本性壓力。

對整個軟體產業來說,Mythos 更像是一面鏡子,照出了數十年來累積的技術債。那些在人類審查與自動化測試中存活了 27 年的漏洞,不是因為沒人找,而是因為人類的注意力與耐心有限。AI 沒有這個限制。

對加密產業來說,這個訊號更加刺耳。DeFi 協議與智慧合約的安全審計市場,長期依賴少數幾家專業審計公司的人工專家。如果一個 Mythos 等級的模型能自主完成從程式碼審查到 exploit 建構的全流程,審計的價格、效率與可信度都將被徹底重新定義。這可能是鏈上安全的福音,也可能是審計公司的護城河終結。

2026 年的 AI 安全競賽已從「模型能不能理解程式碼」升級到了「模型能不能攻破你的系統」。Anthropic 選擇先讓防禦者上場,但它也承認,這扇窗口不會開太久。

當 AI 成為最強的駭客,唯一的出路就是讓 AI 也成為最強的守衛。

問題是,守衛與駭客用的是同一個模型。

GLM4.46%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言