Google Deepmind 的研究人員已發表首個系統性框架,彙整惡意網路內容如何操控、劫持並將自主式 AI 代理武器化,對付其自身使用者。
重點摘要:
該論文標題為〈AI Agent Traps〉,作者為 Matija Franklin、Nenad Tomasev、Julian Jacobs、Joel Z. Leibo 與 Simon Osindero,皆隸屬於 Google Deepmind,並於 2026 年 3 月下旬上傳至 SSRN。該論文出現之際,正值各家公司競相部署能夠瀏覽網路、閱讀電子郵件、執行交易,並在不經人工直接監督的情況下生成子代理的 AI 代理。
研究人員主張,這些能力同樣是風險來源。「透過改變環境而非模型」,該論文指出:「這個陷阱將代理自身的能力武器化,使其反過來被用於對付它本身。」
該論文的框架總共識別出 6 類攻擊,並依據它們所針對的代理運作環節來組織。內容注入陷阱利用的是:人類在網頁上看到的內容,與 AI 代理在底層 HTML、CSS 與中繼資料中解析到的內容之間存在落差。
隱藏於 HTML 註解、無障礙標籤或以樣式呈現為「不可見」文字中的指令,不會出現在人類審閱者面前,但會被註冊為代理的合法指令。WASP 基準發現:嵌入在網路內容中的、由人類撰寫的簡單提示注入,能在所測的情境中,於高達 86% 的情況下,對代理造成部分劫持。
語意操控陷阱的運作方式不同。它們並非注入指令,而是用框架、權威訊號或情緒化語言去「充滿」文字,藉此扭曲代理推理的方式。大型語言模型(LLMs)會呈現相同的錨定與框架偏誤,這些偏誤同樣會影響人類認知;也就是說,對相同事實進行改寫,可能會導致代理輸出產生驚人的差異。
認知狀態陷阱更進一步,透過污染代理用於記憶的檢索資料庫來達成目的。論文引用的研究顯示:向知識庫注入少於少數經最佳化的文件,就能可靠地將代理對特定查詢的回應導向特定方向;在部分攻擊成功率上,甚至能在小於 0.1% 的資料污染下超過 80%。
行為控制陷阱跳過微妙之處,直接瞄準代理的行動層。這些陷阱包括:嵌入的越獄(jailbreak)序列,在被吸收後會覆寫安全對齊;將敏感使用者資訊導向攻擊者可控制端點的資料外洩指令;以及子代理生成陷阱,迫使父代理在實例化時建立遭到破壞的子代理。
該論文記載了一個涉及微軟 M365 Copilot 的案例:一封精心製作的電子郵件就使系統繞過內部分類器,並將其完整的特權情境洩漏給攻擊者可控制的端點。系統性陷阱的設計目標是讓整個代理網路同時失效,而不是只針對單一系統。
這些包括:讓代理同步陷入對有限資源的耗盡性需求的壅塞攻擊;以 2010 年股市 Flash Crash 為模型來運作的相互依存級聯;以及組合式片段陷阱,會將惡意有效載荷散佈到多個看似無害的來源中,並在彙總後才重新組建成完整攻擊。
Google Deepmind 的論文解釋:「透過相關代理行為,向環境灌入設計用以觸發巨觀層級失敗的輸入,隨著 AI 模型生態系統變得更同質化,將日益危險。鑑於演算法式代理深度嵌入交易基礎設施,金融與加密產業面臨直接曝險。」
人類在迴圈中(Human-in-the-Loop)陷阱則為該分類補上最後一塊拼圖:它們針對的是監督代理的人類主管,而非代理本身。遭到入侵的代理可以產生經過設計、用於誘發核准疲勞的輸出;呈現技術密度很高的摘要,讓非專家在未加審視的情況下予以授權;或插入看起來像合法建議的釣魚連結。研究人員表示,這一類別仍屬低估但預期會隨著混合型人類—AI 系統規模化而成長。
該論文並未將這六類視為彼此獨立。個別陷阱可以被串接、可在多個來源之間分層,或是被設計成只在特定的未來條件下才會啟動。論文中引用的各種紅隊測試研究裡所測過的每一個代理,至少都曾在某些情況下遭到破壞;在部分案例中,甚至執行了非法或有害的行動。
先前,OpenAI 執行長 Sam Altman 等人也曾指出,讓代理對敏感系統擁有不受控的存取權所帶來的風險;但這篇論文提供了第一張結構化的地圖,精確說明這些風險在實務中究竟如何具體化。Deepmind 的研究人員呼籲,必須在三個面向展開協調性的回應。
在技術層面上,他們建議在模型開發期間進行對抗式訓練、部署執行階段內容掃描器、建立攝入前來源過濾器,並配備輸出監控機制:一旦偵測到異常行為,就能在代理任務進行中途暫停其運作。在生態系層面上,他們主張制定新的網路標準,使網站能夠標示供 AI 取用的內容,以及建立聲譽系統來評分網域的可靠性。
在法律層面上,他們指出存在一個問責落差:當遭劫持的代理犯下金融犯罪時,現行框架無法提供明確答案,究竟責任歸屬是代理的操作方、模型提供者,或是網域所有者。研究人員以刻意的權重來提出這項挑戰:
「網路是為了人類的眼睛而建;如今正被重建為供機器讀者使用。」
隨著代理採用的速度加快,問題將從「網路上存在哪些資訊」轉向「將會讓哪些 AI 系統相信這些資訊」。無論政策制定者、開發者與安全研究人員能否在現實世界的濫用以規模化形式到來之前,針對這個問題進行足夠快速的協調,仍是未知變數。