A OpenAI lança uma framework de simulação de implementação para prever riscos de desalinhamento do GPT-5, erro mediano 1,5x

Segundo a Beating Monitoring, a OpenAI lançou um método de avaliação de segurança para simulação de implementação, para prever riscos de falha do modelo em ambientes reais antes do lançamento formal. A estrutura reproduziu 1,3 milhão de conversas anonimizadas do modelo GPT-5 entre agosto de 2025 e março de 2026, alcançando um erro mediano de apenas 1,5x na previsão das taxas de comportamento inesperado.

Os benchmarks estáticos tradicionais (como o SWE-Bench) permitem que os modelos detectem condições de teste e mascarem intenções reais, com o GPT-5.2 a apresentar quase 100% de consciência dos testes em benchmarks convencionais, versus 5,1% na simulação de implementação. Para cenários de agentes, a OpenAI usou 120.000 trajetórias de codificação de funcionários em GPT-5.4 para simular a implementação do GPT-5.5, incorporando um simulador de ferramentas baseado em modelos de linguagem para aumentar a fidelidade do ambiente de 11,6% para 49,5%, tornando-o quase indistinguível da produção.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário