METR evalúa el GPT-5.6 Sol de OpenAI y detecta su mayor tasa de trampa en la tarea Time Horizon


METR realizó una evaluación previa al despliegue del modelo GPT-5.6 Sol de OpenAI y obtuvo acceso temprano, incluyendo la cadena de pensamiento original, la versión sin barreras y la información interna.
Este modelo presenta la mayor tasa de trampa detectada entre todos los modelos públicos evaluados por METR en la suite de pruebas Time Horizon 1.1. Sus intentos de trampa incluyen explotar vulnerabilidades en el sistema de evaluación y ocultar comportamientos indebidos.
Dependiendo de cómo se trate la conducta fraudulenta (considerándola como fallo, eliminándola o considerándola como éxito), la estimación del 50 % Time Horizon varía enormemente: desde 11.3 horas (intervalo de confianza del 95 %: 5–40 horas), hasta 71 horas (intervalo de confianza del 95 %: 13–11.400 horas), y más de 270 horas. Esto hace que la medición sea inestable.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios