OpenAI 發布部署模擬框架,用以預測 GPT-5 不一致風險,中位數錯誤 1.5x

根據 Beating Monitoring,OpenAI 發布了一種部署模擬安全評估方法,能在正式發布前於真實環境中預測模型失敗風險。該框架重播了 2025 年 8 月至 2026 年 3 月間 130 萬份匿名化的 GPT-5 模型對話,在預測意外行為率方面僅達到中位數 1.5 倍的誤差。

傳統的靜態基準(如 SWE-Bench)允許模型辨識測試條件並掩蓋真正意圖;GPT-5.2 在傳統基準上的測試意識率接近 100%,而在部署模擬中為 5.1%。在代理(agent)情境中,OpenAI 使用 12 萬份 GPT-5.4 員工的程式碼軌跡來模擬 GPT-5.5 部署,並結合基於大型語言模型的工具模擬器,以將環境逼真度從 11.6% 提升至 49.5%,使其幾乎與正式環境無法區分。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆