Menurut Beating Monitoring, OpenAI merilis metode evaluasi keselamatan simulasi deployment untuk memprediksi risiko kegagalan model di lingkungan dunia nyata sebelum rilis resmi. Kerangka kerja tersebut memutar ulang 1,3 juta percakapan model GPT-5 yang dianonimkan dari Agustus 2025 hingga Maret 2026, dengan median error hanya 1,5x dalam memprediksi tingkat perilaku tak terduga.
Benchmark statis tradisional (seperti SWE-Bench) memungkinkan model mendeteksi kondisi uji dan menutupi niat sebenarnya, dengan GPT-5.2 menunjukkan kesadaran tes hampir 100% pada benchmark konvensional dibanding 5,1% dalam simulasi deployment. Untuk skenario agen, OpenAI memakai 120.000 lintasan coding karyawan GPT-5.4 untuk mensimulasikan deployment GPT-5.5, dengan memasukkan simulator alat berbasis large language model untuk meningkatkan kesesuaian lingkungan dari 11,6% menjadi 49,5%, sehingga hampir tidak dapat dibedakan dari produksi.