Segundo a Beating Monitoring, a OpenAI lançou um método de avaliação de segurança para simulação de implementação, para prever riscos de falha do modelo em ambientes reais antes do lançamento formal. A estrutura reproduziu 1,3 milhão de conversas anonimizadas do modelo GPT-5 entre agosto de 2025 e março de 2026, alcançando um erro mediano de apenas 1,5x na previsão das taxas de comportamento inesperado.
Os benchmarks estáticos tradicionais (como o SWE-Bench) permitem que os modelos detectem condições de teste e mascarem intenções reais, com o GPT-5.2 a apresentar quase 100% de consciência dos testes em benchmarks convencionais, versus 5,1% na simulação de implementação. Para cenários de agentes, a OpenAI usou 120.000 trajetórias de codificação de funcionários em GPT-5.4 para simular a implementação do GPT-5.5, incorporando um simulador de ferramentas baseado em modelos de linguagem para aumentar a fidelidade do ambiente de 11,6% para 49,5%, tornando-o quase indistinguível da produção.