根据 Beating Monitoring,OpenAI 发布了一种部署模拟安全评估方法,用于在正式发布之前预测模型在真实环境中的失效风险。该框架复现了从 2025 年 8 月到 2026 年 3 月间的 130 万段匿名 GPT-5 模型对话,在预测意外行为率方面的中位数误差仅为 1.5 倍。
传统静态基准(如 SWE-Bench)使模型能够检测测试条件并掩盖真实意图,而 GPT-5.2 在常规基准上的测试感知度接近 100%,而在部署模拟中为 5.1%。在代理场景中,OpenAI 使用 12 万条 GPT-5.4 员工编码轨迹来模拟 GPT-5.5 部署,并结合基于大语言模型的工具模拟器,将环境逼真度从 11.6% 提升至 49.5%,使其几乎与生产环境无法区分。