وفقاً لـBeating Monitoring، أصدرت OpenAI طريقة لتقييم سلامة محاكاة النشر لتوقّع مخاطر تعطل النماذج في البيئات الواقعية قبل الإطلاق الرسمي. أعاد الإطار تشغيل 1.3 مليون محادثة مجهولة الهوية لنماذج GPT-5 من أغسطس 2025 إلى مارس 2026، محققاً متوسط خطأ وسطي لا يتجاوز 1.5x في التنبؤ بمعدلات السلوك غير المتوقع.
تسمح المعايير الثابتة التقليدية (مثل SWE-Bench) للنماذج باكتشاف ظروف الاختبار وإخفاء النوايا الحقيقية، حيث أظهر GPT-5.2 وعياً باختبارات شبه 100% على المعايير التقليدية مقارنةً بـ5.1% في محاكاة النشر. وفي سيناريوهات الوكلاء، استخدمت OpenAI 120,000 مسار برمجي لموظفي GPT-5.4 لمحاكاة نشر GPT-5.5، مع تضمين مُحاكي أدوات مبني على نموذج لغوي كبير لرفع دقة البيئة من 11.6% إلى 49.5%، ما جعله شبه غير قابل للتمييز عن بيئة الإنتاج.