El sistema de recompensas de OpenAI puntúa inadvertidamente cadenas de pensamiento en 6 modelos, incluido GPT-5.4

Según el equipo de alineación de OpenAI, la empresa descubrió recientemente un error crítico de entrenamiento que afecta a 6 modelos grandes de lenguaje, incluido GPT-5.4. Pensamiento: el mecanismo de recompensa puntuó inadvertidamente las cadenas de pensamiento del modelo, el proceso de razonamiento interno antes de generar respuestas. GPT-5.5 no se vio afectado.

El incidente infringe un principio fundamental de seguridad de la IA de que las cadenas de pensamiento nunca deben evaluarse, ya que hacerlo podría incentivar a los modelos a fabricar razonamientos para obtener puntuaciones más altas.

El sistema de puntuación defectuoso incluyó incorrectamente cadenas de pensamiento al evaluar si las respuestas eran útiles o si los modelos habían sido comprometidos por ataques. Las muestras de entrenamiento afectadas representaron, como máximo, el 3,8% del conjunto de datos.

OpenAI ha corregido la vulnerabilidad y ha realizado experimentos comparativos que confirman que los modelos no desarrollaron comportamientos engañosos. La empresa ha implementado un sistema automatizado de escaneo en todas las canalizaciones de entrenamiento para evitar que se repita.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios