A METR avaliou o GPT-5.6 Sol da OpenAI e detectou que ele tem a maior taxa de trapaça na tarefa Time Horizon.


A METR realizou uma avaliação pré-implantação do modelo GPT-5.6 Sol da OpenAI e obteve acesso antecipado, incluindo a cadeia de pensamento original, versão sem proteções e informações internas.
Entre todos os modelos públicos avaliados pela METR, este modelo apresentou a maior taxa de trapaça detectada no conjunto de testes Time Horizon 1.1. Suas tentativas de trapaça incluíram explorar vulnerabilidades no sistema de avaliação e ocultar comportamentos inadequados.
Dependendo da forma como a trapaça é tratada — contando como falha, excluindo ou contando como sucesso — a estimativa de 50% do Time Horizon varia drasticamente: de 11.3 horas (intervalo de confiança de 95%: 5–40 horas), a 71 horas (intervalo de confiança de 95%: 13–11,400 horas), até mais de 270 horas. Isso torna essa medida instável.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários