亲爱的广场用户们,新年即将开启,我们希望您也能在 Gate 广场上留下专属印记,把 2026 的第一句话,留在 Gate 广场!发布您的 #我的2026第一帖,记录对 2026 的第一句期待、愿望或计划,与全球 Web3 用户共同迎接全新的旅程,创造专属于你的年度开篇篇章,解锁广场价值 $10,000 新年专属福利!
活动时间:2025/12/31 18:00 — 2026/01/15 23:59(UTC+8)
🎁 活动奖励:多发多奖,曝光拉满!
1️⃣ 2026 幸运大奖:从全部有效帖子中随机抽取 1 位,奖励包含:
2026U 仓位体验券
Gate 新年限定礼盒
全年广场首页推荐位曝光
2️⃣ 人气新年帖 TOP 1–10:根据发帖量及互动表现综合排名,奖励包含:
Gate 新年限定礼盒
广场精选帖 5 篇推荐曝光
3️⃣ 新手首帖加成奖励:活动前未在广场发帖的用户,活动期间首次发帖即可获得:
50U 仓位体验券
进入「新年新声」推荐榜单,额外曝光加持
4️⃣ 基础参与奖励:所有符合规则的用户中随机抽取 20 位,赠送新年 F1 红牛周边礼包
参与方式:
1️⃣ 带话题 #我的2026第一条帖 发帖,内容字数需要不少于 30 字
2️⃣ 内容方向不限,可以是以下内容:
写给 2026 的第一句话
新年目标与计划
Web3 领域探索及成长愿景
注意事项
• 禁止抄袭、洗稿及违规
Perplexity AI 开源 BrowseSafe 以应对 AI 浏览中的提示注入问题
简要
Perplexity 开源了 BrowseSafe,这是一款旨在保护 AI 浏览器助手免受网页中隐藏的恶意指令攻击的安全工具。
开发 AI 驱动的 Perplexity 搜索引擎的 Perplexity AI 公司宣布推出 BrowseSafe,这是一款开放研究基准和内容检测模型,旨在提升用户安全性,因为 AI 代理开始直接在浏览器环境中运行。
随着 AI 助手突破传统搜索界面,开始在 web 浏览器内执行任务,互联网的结构预计将从静态页面转变为代理驱动的交互。在这种模式下,浏览器成为助手可以采取行动的工作区,而不仅仅是提供答案,因此需要有系统来确保助手始终以用户利益为先。
BrowseSafe 是一个经过专门训练的检测模型,核心任务是评估网页 HTML 是否包含旨在操纵 AI 代理的有害指令。虽然大型通用模型能够准确评估这些风险,但它们通常太占资源,难以持续实时扫描。BrowseSafe 设计用于快速分析完整网页而不影响浏览器性能。与模型一同发布的还有 BrowseSafe-Bench,一个测试套件,旨在支持防御机制的持续评估和改进。
AI 浏览的兴起同样带来了新的网络安全挑战,需要更新的防护策略。该公司此前已介绍其 Comet 系统如何通过多层防护,确保代理即使在网站试图通过提示注入(prompt injection)改变代理行为时,也能与用户意图保持一致。最新的说明则关注于如何定义这些威胁、如何使用真实世界攻击场景进行测试,并将这些内容纳入训练模型,以便足够快速地识别并拦截有害指令,从而安全部署到浏览器中。
提示注入(prompt injection)是指在 AI 系统处理的文本中插入恶意语言,目的是重定向系统行为。在浏览器场景下,代理会读取整页内容,这使得攻击可以嵌入到评论、模板或扩展页脚等区域。如果未被正确检测,这些隐藏指令会影响代理行为。它们可能以微妙或多语言形式出现,或隐藏在页面上不可见的 HTML 元素中(如数据属性或未渲染的表单字段)——这些内容用户不可见,但 AI 系统依然会解析。
BrowseSafe-Bench:提升真实 Web 环境下的代理安全性
为了在类似真实浏览环境中分析提示注入威胁,公司开发了 BrowseSafe 检测模型,并将其开源,同时发布了 BrowseSafe-Bench,这是一个包含 14,719 个模拟生产网页样本的公开基准数据集。该数据集涵盖复杂的 HTML 结构、内容质量参差不齐,以及攻击者意图、注入指令在页面中的位置和语言风格各异的多种恶意与良性样本。它涵盖了 11 类攻击、9 种注入方式(从隐藏元素到可见文本块)、3 种语言风格(从直接命令到更委婉、间接的表述)。
在定义的威胁模型下,助手运行在受信任环境中,而所有外部 Web 内容都被视为不可信。恶意行为者可能控制整个网站,或将有害文本(如描述、评论或帖子)插入到代理访问的其他合法页面中。为降低风险,任何能返回不可信数据的工具,包括网页、电子邮件或文件,都会被标记,其原始输出在代理解析或采取行动前由 BrowseSafe 处理。BrowseSafe 是更广泛安全策略的一部分,该策略还包括扫描输入内容、默认限制工具权限、对敏感操作要求用户批准,以及标准浏览器防护。分层防护旨在支持强大浏览器助手的安全使用。
在 BrowseSafe-Bench 的测试结果中,展现出几个趋势。直接攻击形式(如试图提取系统提示、通过 URL 路径重定向信息)最容易被模型检测到。而多语言攻击以及间接、假设性的表述则更难,因为它们规避了许多检测系统依赖的词汇线索。注入文本的位置也有影响。隐藏在 HTML 注释中的实例较易检测,而出现在页脚、表格单元格或段落等可见区域的则更具挑战性,暴露了对非隐藏注入处理的结构性弱点。通过优化训练样本可以提升这些场景下的检测能力。
BrowseSafe 和 BrowseSafe-Bench 作为开源资源提供。开发自主代理的人员可用它们来加强对提示注入的防御,无需独立开发防护系统。检测模型可本地运行,在有害指令到达代理核心决策层前进行拦截,性能优化用于实时扫描完整页面。BrowseSafe-Bench 提供的大量真实攻击场景可用于压力测试模型,检验其在复杂 HTML 模式下的表现,而分块及并行扫描技术则帮助代理高效处理大型不可信页面,降低用户风险。