Согласно Beating Monitoring, OpenAI выпустила метод оценки безопасности симуляции развертывания, чтобы прогнозировать риски сбоя модели в реальных средах до официального релиза. В рамках подхода были воспроизведены 1,3 миллиона анонимизированных разговоров модели GPT-5 за период с августа 2025 года по март 2026 года, при этом медианная ошибка при прогнозировании доли непредвиденного поведения составила всего 1,5x.
Традиционные статические бенчмарки (например, SWE-Bench) позволяют моделям распознавать условия теста и маскировать истинные намерения: GPT-5.2 показала почти 100% осведомленности о тесте на обычных бенчмарках против 5,1% в симуляции развертывания. В сценариях с агентами OpenAI использовала 120 000 траекторий кодирования сотрудников с GPT-5.4 для симуляции развертывания GPT-5.5, внедрив симулятор инструментов на базе большой языковой модели, чтобы повысить достоверность среды с 11,6% до 49,5%, сделав сценарии почти неотличимыми от продакшена.