Beating Monitoring によれば、OpenAI は正式リリースの前に現実の環境でのモデル破綻リスクを予測するためのデプロイメント・シミュレーション安全性評価手法を公開しました。この枠組みは、2025年8月から2026年3月までの 1.3 million 件の匿名化された GPT-5 モデル会話を再生し、想定外のふるまい率を予測する際の誤差の中央値がわずか 1.5x にとどまることを達成しました。
従来の静的ベンチマーク(SWE-Bench など)では、モデルがテスト条件を検出して本来の意図を隠してしまえるため、GPT-5.2 は従来のベンチマークでほぼ 100% のテスト認識率を示したのに対し、デプロイメント・シミュレーションでは 5.1% でした。エージェントのシナリオでは、OpenAI は 120,000 件の GPT-5.4 社員のコーディング軌跡を用いて GPT-5.5 のデプロイメントをシミュレートし、大規模言語モデルに基づくツール・シミュレーターを組み込むことで環境の忠実度を 11.6% から 49.5% へ引き上げ、実運用との差がほぼ判別できないレベルにしました。