Perplexity AI 開源 BrowseSafe 以對抗 AI 瀏覽中的提示注入

2025-12-04 13:50:05

重點摘要

Perplexity 開源了 BrowseSafe，一款旨在保護 AI 瀏覽器助手免受網頁中隱藏的惡意指令攻擊的安全工具。

Perplexity AI，即 AI 驅動的 Perplexity 搜尋引擎背後的公司，宣布推出 BrowseSafe，一個開放研究基準和內容偵測模型，旨在於 AI 代理開始直接在瀏覽器環境中運作之際提升用戶安全性。

隨著 AI 助手超越傳統搜尋介面，開始在網頁瀏覽器內執行各種任務，網際網路的結構預計將從靜態頁面轉變為以代理為主的互動模式。在這種模型中，瀏覽器成為助手可以採取行動的工作區，而非僅僅提供答案，因此需要確保助手始終遵循用戶利益的系統。

BrowseSafe 是一個專門訓練的偵測模型，核心目標是評估網頁 HTML 是否含有旨在操控 AI 代理的有害指令。雖然大型通用模型能準確評估這些風險，但通常資源消耗過大，不適合持續即時掃描。BrowseSafe 設計用於快速分析完整網頁，且不影響瀏覽器效能。公司同時推出 BrowseSafe-Bench，一套測試套件，旨在持續評估及改進防禦機制。

AI 驅動瀏覽的興起也帶來新的網路安全挑戰，需採用更新的保護策略。該公司此前曾介紹其 Comet 系統如何應用多層防禦，確保代理與用戶意圖一致，即使網站嘗試通過提示注入改變代理行為亦然。最新說明則聚焦於這些威脅的定義、如何以真實攻擊場景測試，以及如何將其納入用於快速識別並阻擋有害指令的訓練模型中，以確保能安全部署於瀏覽器內。

提示注入指的是將惡意語言插入 AI 系統處理的文本中，目的是重定向系統行為。在瀏覽器情境下，代理會閱讀整個頁面，使這類攻擊可嵌入於評論、模板或長篇頁腳等區塊。這些隱藏指令若未被正確偵測，可能影響代理行為。它們也可能以微妙或多語種格式書寫，或隱藏於 HTML 中未於頁面顯示的元素，如資料屬性或未渲染的表單欄位，這些內容用戶看不到，但 AI 系統仍會解析。

BrowseSafe-Bench：推進真實網路環境中的代理安全

為了在近似實際瀏覽環境中分析提示注入威脅，該公司開發並開源了 BrowseSafe 偵測模型與 BrowseSafe-Bench 公開基準，內含 14,719 個模擬實際網頁的案例。資料集涵蓋複雜的 HTML 結構、品質參差不齊的內容，以及廣泛多樣的惡意與良性樣本，涵蓋攻擊者意圖、指令注入位置及語言風格的不同。它包含 11 種攻擊類型、9 種注入方式（從隱藏元素到可見文本區塊）、以及 3 種語言風格（從直接指令到更隱晦的間接表述）。

根據定義的威脅模型，助手於可信環境中運作，而所有外部網頁內容均視為不可信。惡意行為者可能控制整個網站，或將有害文本（如描述、評論或貼文）插入代理存取的合法頁面。為降低這些風險，任何可能返回不可信資料的工具，包括網頁、電子郵件或檔案，都會被標記，其原始輸出需經 BrowseSafe 處理後，代理才能解析或執行。BrowseSafe 是更廣泛安全策略的一環，該策略還包括掃描進入內容、預設限制工具權限，以及對敏感操作需用戶核准，並輔以標準瀏覽器保護。這種多層防禦方法旨在確保強大瀏覽器助手的安全使用。

BrowseSafe-Bench 的測試結果揭示數個趨勢。直接攻擊形式（如試圖提取系統提示或透過 URL 路徑重定向資訊）最易被模型偵測。多語種攻擊及間接或假設性表述風格則較難偵測，因迴避了許多偵測系統依賴的詞彙線索。指令注入位置亦有影響。隱藏於 HTML 註解的案例偵測效果較好，反之若出現在頁腳、表格儲存格或段落等可見區塊則更具挑戰，顯示系統處理非隱藏注入時的結構性弱點。透過精心設計的訓練樣本可提升這些情境下的偵測表現。

BrowseSafe 與 BrowseSafe-Bench 均以開源資源形式提供。開發自動化代理的開發者可利用這些工具強化對提示注入的防禦，無需自行建構保護系統。偵測模型可在本地執行，於指令進入代理決策層前即時標記有害內容，其效能已針對即時掃描完整頁面最佳化。BrowseSafe-Bench 的大量真實攻擊情境可幫助模型針對複雜 HTML 模式進行壓力測試，這些模式通常會使標準語言模型失效，而分塊與平行掃描技術則協助代理有效處理大型不可信頁面，降低用戶風險。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。