親愛的廣場用戶們,新年即將開啟,我們希望您也能在 Gate 廣場上留下專屬印記,把 2026 的第一句話,留在 Gate 廣場!發布您的 #我的2026第一帖,记录对 2026 的第一句期待、願望或計劃,與全球 Web3 用戶共同迎接全新的旅程,創造專屬於你的年度開篇篇章,解鎖廣場價值 $10,000 新年專屬福利!
活動時間:2025/12/31 18:00 — 2026/01/15 23:59(UTC+8)
🎁 活動獎勵:多發多獎,曝光拉滿!
1️⃣ 2026 幸運大獎:從全部有效貼文中隨機抽取 1 位,獎勵包含:
2026U 仓位體驗券
Gate 新年限定禮盒
全年廣場首頁推薦位曝光
2️⃣ 人氣新年貼 TOP 1–10:根據發帖量及互動表現綜合排名,獎勵包含:
Gate 新年限定禮盒
廣場精選貼 5 篇推薦曝光
3️⃣ 新手首貼加成獎勵:活動前未在廣場發帖的用戶,活動期間首次發帖即可獲得:
50U 仓位體驗券
進入「新年新聲」推薦榜單,額外曝光加持
4️⃣ 基礎參與獎勵:所有符合規則的用戶中隨機抽取 20 位,贈送新年 F1 紅牛周邊禮包
參與方式:
1️⃣ 帶話題 #我的2026第一条帖 發帖,內容字數需要不少於 30 字
2️⃣ 內容方向不限,可以是以下內容:
寫給 2026 的第一句話
新年目標與計劃
Web3 領域探索及成長願景
注意事項
• 禁止抄襲、洗稿及違
Perplexity AI 開源 BrowseSafe 以對抗 AI 瀏覽中的提示注入
重點摘要
Perplexity 開源了 BrowseSafe,一款旨在保護 AI 瀏覽器助手免受網頁中隱藏的惡意指令攻擊的安全工具。
Perplexity AI,即 AI 驅動的 Perplexity 搜尋引擎背後的公司,宣布推出 BrowseSafe,一個開放研究基準和內容偵測模型,旨在於 AI 代理開始直接在瀏覽器環境中運作之際提升用戶安全性。
隨著 AI 助手超越傳統搜尋介面,開始在網頁瀏覽器內執行各種任務,網際網路的結構預計將從靜態頁面轉變為以代理為主的互動模式。在這種模型中,瀏覽器成為助手可以採取行動的工作區,而非僅僅提供答案,因此需要確保助手始終遵循用戶利益的系統。
BrowseSafe 是一個專門訓練的偵測模型,核心目標是評估網頁 HTML 是否含有旨在操控 AI 代理的有害指令。雖然大型通用模型能準確評估這些風險,但通常資源消耗過大,不適合持續即時掃描。BrowseSafe 設計用於快速分析完整網頁,且不影響瀏覽器效能。公司同時推出 BrowseSafe-Bench,一套測試套件,旨在持續評估及改進防禦機制。
AI 驅動瀏覽的興起也帶來新的網路安全挑戰,需採用更新的保護策略。該公司此前曾介紹其 Comet 系統如何應用多層防禦,確保代理與用戶意圖一致,即使網站嘗試通過提示注入改變代理行為亦然。最新說明則聚焦於這些威脅的定義、如何以真實攻擊場景測試,以及如何將其納入用於快速識別並阻擋有害指令的訓練模型中,以確保能安全部署於瀏覽器內。
提示注入指的是將惡意語言插入 AI 系統處理的文本中,目的是重定向系統行為。在瀏覽器情境下,代理會閱讀整個頁面,使這類攻擊可嵌入於評論、模板或長篇頁腳等區塊。這些隱藏指令若未被正確偵測,可能影響代理行為。它們也可能以微妙或多語種格式書寫,或隱藏於 HTML 中未於頁面顯示的元素,如資料屬性或未渲染的表單欄位,這些內容用戶看不到,但 AI 系統仍會解析。
BrowseSafe-Bench:推進真實網路環境中的代理安全
為了在近似實際瀏覽環境中分析提示注入威脅,該公司開發並開源了 BrowseSafe 偵測模型與 BrowseSafe-Bench 公開基準,內含 14,719 個模擬實際網頁的案例。資料集涵蓋複雜的 HTML 結構、品質參差不齊的內容,以及廣泛多樣的惡意與良性樣本,涵蓋攻擊者意圖、指令注入位置及語言風格的不同。它包含 11 種攻擊類型、9 種注入方式(從隱藏元素到可見文本區塊)、以及 3 種語言風格(從直接指令到更隱晦的間接表述)。
根據定義的威脅模型,助手於可信環境中運作,而所有外部網頁內容均視為不可信。惡意行為者可能控制整個網站,或將有害文本(如描述、評論或貼文)插入代理存取的合法頁面。為降低這些風險,任何可能返回不可信資料的工具,包括網頁、電子郵件或檔案,都會被標記,其原始輸出需經 BrowseSafe 處理後,代理才能解析或執行。BrowseSafe 是更廣泛安全策略的一環,該策略還包括掃描進入內容、預設限制工具權限,以及對敏感操作需用戶核准,並輔以標準瀏覽器保護。這種多層防禦方法旨在確保強大瀏覽器助手的安全使用。
BrowseSafe-Bench 的測試結果揭示數個趨勢。直接攻擊形式(如試圖提取系統提示或透過 URL 路徑重定向資訊)最易被模型偵測。多語種攻擊及間接或假設性表述風格則較難偵測,因迴避了許多偵測系統依賴的詞彙線索。指令注入位置亦有影響。隱藏於 HTML 註解的案例偵測效果較好,反之若出現在頁腳、表格儲存格或段落等可見區塊則更具挑戰,顯示系統處理非隱藏注入時的結構性弱點。透過精心設計的訓練樣本可提升這些情境下的偵測表現。
BrowseSafe 與 BrowseSafe-Bench 均以開源資源形式提供。開發自動化代理的開發者可利用這些工具強化對提示注入的防禦,無需自行建構保護系統。偵測模型可在本地執行,於指令進入代理決策層前即時標記有害內容,其效能已針對即時掃描完整頁面最佳化。BrowseSafe-Bench 的大量真實攻擊情境可幫助模型針對複雜 HTML 模式進行壓力測試,這些模式通常會使標準語言模型失效,而分塊與平行掃描技術則協助代理有效處理大型不可信頁面,降低用戶風險。