Perplexity AI 开源 BrowseSafe 以应对 AI 浏览中的提示注入问题

2025-12-04 13:50:05

简要

Perplexity 开源了 BrowseSafe，这是一款旨在保护 AI 浏览器助手免受网页中隐藏的恶意指令攻击的安全工具。

开发 AI 驱动的 Perplexity 搜索引擎的 Perplexity AI 公司宣布推出 BrowseSafe，这是一款开放研究基准和内容检测模型，旨在提升用户安全性，因为 AI 代理开始直接在浏览器环境中运行。

随着 AI 助手突破传统搜索界面，开始在 web 浏览器内执行任务，互联网的结构预计将从静态页面转变为代理驱动的交互。在这种模式下，浏览器成为助手可以采取行动的工作区，而不仅仅是提供答案，因此需要有系统来确保助手始终以用户利益为先。

BrowseSafe 是一个经过专门训练的检测模型，核心任务是评估网页 HTML 是否包含旨在操纵 AI 代理的有害指令。虽然大型通用模型能够准确评估这些风险，但它们通常太占资源，难以持续实时扫描。BrowseSafe 设计用于快速分析完整网页而不影响浏览器性能。与模型一同发布的还有 BrowseSafe-Bench，一个测试套件，旨在支持防御机制的持续评估和改进。

AI 浏览的兴起同样带来了新的网络安全挑战，需要更新的防护策略。该公司此前已介绍其 Comet 系统如何通过多层防护，确保代理即使在网站试图通过提示注入（prompt injection）改变代理行为时，也能与用户意图保持一致。最新的说明则关注于如何定义这些威胁、如何使用真实世界攻击场景进行测试，并将这些内容纳入训练模型，以便足够快速地识别并拦截有害指令，从而安全部署到浏览器中。

提示注入（prompt injection）是指在 AI 系统处理的文本中插入恶意语言，目的是重定向系统行为。在浏览器场景下，代理会读取整页内容，这使得攻击可以嵌入到评论、模板或扩展页脚等区域。如果未被正确检测，这些隐藏指令会影响代理行为。它们可能以微妙或多语言形式出现，或隐藏在页面上不可见的 HTML 元素中（如数据属性或未渲染的表单字段）——这些内容用户不可见，但 AI 系统依然会解析。

BrowseSafe-Bench：提升真实 Web 环境下的代理安全性

为了在类似真实浏览环境中分析提示注入威胁，公司开发了 BrowseSafe 检测模型，并将其开源，同时发布了 BrowseSafe-Bench，这是一个包含 14,719 个模拟生产网页样本的公开基准数据集。该数据集涵盖复杂的 HTML 结构、内容质量参差不齐，以及攻击者意图、注入指令在页面中的位置和语言风格各异的多种恶意与良性样本。它涵盖了 11 类攻击、9 种注入方式（从隐藏元素到可见文本块）、3 种语言风格（从直接命令到更委婉、间接的表述）。

在定义的威胁模型下，助手运行在受信任环境中，而所有外部 Web 内容都被视为不可信。恶意行为者可能控制整个网站，或将有害文本（如描述、评论或帖子）插入到代理访问的其他合法页面中。为降低风险，任何能返回不可信数据的工具，包括网页、电子邮件或文件，都会被标记，其原始输出在代理解析或采取行动前由 BrowseSafe 处理。BrowseSafe 是更广泛安全策略的一部分，该策略还包括扫描输入内容、默认限制工具权限、对敏感操作要求用户批准，以及标准浏览器防护。分层防护旨在支持强大浏览器助手的安全使用。

在 BrowseSafe-Bench 的测试结果中，展现出几个趋势。直接攻击形式（如试图提取系统提示、通过 URL 路径重定向信息）最容易被模型检测到。而多语言攻击以及间接、假设性的表述则更难，因为它们规避了许多检测系统依赖的词汇线索。注入文本的位置也有影响。隐藏在 HTML 注释中的实例较易检测，而出现在页脚、表格单元格或段落等可见区域的则更具挑战性，暴露了对非隐藏注入处理的结构性弱点。通过优化训练样本可以提升这些场景下的检测能力。

BrowseSafe 和 BrowseSafe-Bench 作为开源资源提供。开发自主代理的人员可用它们来加强对提示注入的防御，无需独立开发防护系统。检测模型可本地运行，在有害指令到达代理核心决策层前进行拦截，性能优化用于实时扫描完整页面。BrowseSafe-Bench 提供的大量真实攻击场景可用于压力测试模型，检验其在复杂 HTML 模式下的表现，而分块及并行扫描技术则帮助代理高效处理大型不可信页面，降低用户风险。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。