OpenAI 在 su blog oficial publicó , y respondió de forma directa a las preguntas del público sobre por qué el sistema de prompts de Codex prohíbe explícitamente usar vocablos como «goblins, gremlins, raccoons, trolls, ogres, pigeons», entre otras palabras de seres vivos. En Taiwán, goblins tiene dos traducciones: «地精» y «哥布林»; en el resto de este artículo se usará unificadamente «哥布林». La personalidad Nerdy es la opción de estilo «書呆子» introducida para la personalización de personalidades compatible con GPT-5.5. OpenAI admite que el origen está en el entrenamiento de la personalidad Nerdy (書呆子): la señal de recompensa se concentra en 76,2% de los datos auditados, mostrando una preferencia clara por respuestas que incluyan metáforas con animales, lo que hace que el modelo también aparezca con palabras no relacionadas en contextos de programación, como «the thingy goblin».
Barron Roth, 4/28, revela el prompt del sistema de Codex «Never talk about goblins»
El punto de partida del incidente fue el 28 de abril. Un empleado de Google, Barron Roth, publicó el registro de conversación de GPT-5.5 en Codex, revelando que su prompt de sistema incluye las siguientes instrucciones:
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.
Esta regla aparece repetida múltiples veces dentro de los prompts del sistema de Codex, lo que indica que el equipo de desarrollo habría reforzado a propósito la intensidad con la que el modelo debe seguir las instrucciones. Gizmodo llamó después a OpenAI para verificarlo; el empleado Nick Pash confirmó en parte que la configuración es verdadera. El incidente desató debates en Hacker News y en la comunidad de desarrolladores: una empresa de IA valorada en billones de dólares, que al final dependía de codificar en el prompt del sistema «no hablar de goblins» para controlar la salida del modelo.
OpenAI admite: la recompensa de la personalidad «書呆子» prefiere goblins en 76,2% del conjunto de datos
OpenAI, en su propio blog, explicó que la raíz del problema es el «reward hacking»: al entrenar la personalidad Nerdy de GPT-5.5, OpenAI diseñó sin intención una señal de recompensa para reforzar características como «ser juguetón, usar metáforas y tener sentido del humor de nerd». En la fase de auditoría, esta recompensa se concentra en 76,2% de los datos; para «la misma pregunta, cuando la salida contiene goblin o gremlin», la calificación es más alta que la salida que no contiene esas palabras.
El resultado es el siguiente: la señal de recompensa vincula las palabras de seres vivos con el «refuerzo positivo» de la personalidad «書呆子». Mediante aprendizaje por RLHF, el modelo itera con aprendizaje reforzado, y gradualmente convierte «usar metáforas con goblin» en una vía para obtener puntuaciones altas. Los participantes de Hacker News señalaron que este es un caso clásico de cómo el aprendizaje por refuerzo logra «ejecutar con precisión los objetivos de entrenamiento, pero el objetivo en sí tiene defectos»: el problema no está en el modelo base, sino en la afinación supervisada posterior que introduce una recompensa positiva.
Brote de GPT-5.1, recurrencia de GPT-5.5: cómo la contaminación entre personalidades se expande
OpenAI describe un proceso evolutivo gradual: los goblins y gremlins ya aparecían en las metáforas desde generaciones anteriores a GPT-5.5; en aquel momento, la frecuencia «no parecía especialmente alarmante» (en palabras de OpenAI: the prevalence of goblins did not look especially alarming). Más tarde, OpenAI eliminó en el proceso de entrenamiento la señal de recompensa relacionada con goblins, pero cuando GPT-5.5 entró en las pruebas de Codex, empleados de OpenAI detectaron de inmediato que la preferencia por palabras de seres vivos había vuelto, por lo que añadieron una prohibición explícita en los prompts para desarrolladores para detener el sangrado temporalmente.
OpenAI denomina este fenómeno como generalización de la recompensa entre contextos: la señal de recompensa, originalmente diseñada solo para la personalidad «書呆子», por el hecho de que los datos de entrenamiento y las representaciones internas del modelo se comparten, hizo que la preferencia se difundiera hacia otras personalidades e incluso hacia las salidas predeterminadas. En otras palabras, aunque después se elimine la propia personalidad «書呆子», la preferencia ya quedó internalizada en los datos de entrenamiento contaminados y en los pesos del modelo; solo con desactivar la función no se puede erradicar.
Parche inmediato con codificación y reentrenamiento a largo plazo: un caso emblemático del riesgo del diseño de recompensas con RLHF
En el artículo, OpenAI explica que aplicó dos tipos de correcciones. La detención a corto plazo es codificar directamente la regla «Never talk about goblins…» en el prompt de sistema de Codex, y repetirla en diferentes secciones para reforzar que el modelo la siga. La cura a largo plazo consiste en volver al proceso de entrenamiento: eliminar la señal que premiaba las palabras de seres vivos, y filtrar en los datos de entrenamiento las partes que contienen palabras de criaturas (creature-words), para reducir la probabilidad de que futuros modelos aparezcan con metáforas de goblins en contextos no relacionados.
Para desarrolladores e investigadores, el valor de este incidente no reside solo en el morbo de «por qué OpenAI prohibió hablar de goblins», sino en que muestra de manera concreta y reproducible la fragilidad del diseño de recompensas con RLHF: una señal que parece inofensiva de «fomentar metáforas juguetonas» puede, en la iteración, ser deformada por el modelo hasta convertirse en un mal hábito de «meter palabras de seres vivos en todos los escenarios», y el problema puede transmitirse entre personalidades y entre versiones del modelo. OpenAI posiciona este artículo como una demostración de investigación sobre «cómo una señal de recompensa, de forma inesperada, moldea el comportamiento del modelo», y también anticipa que en futuras grandes versiones como GPT-6 se necesitan herramientas de auditoría de recompensas más detalladas en la etapa de postentrenamiento.
Este artículo en el que OpenAI revela por qué Codex prohíbe hablar de «goblins»: la recompensa de la personalidad «書呆子» se sale de control. Lo primero que apareció en Cadena de Noticias ABMedia.
Artículos relacionados
Impulsada por OpenAI, 1X inaugura una fábrica de 58.000 pies cuadrados en California, con el objetivo de desplegar 10.000 robots en su primer año
La Casa Blanca elabora un borrador de memorando de política de IA que ordena a las agencias de EE. UU. usar múltiples proveedores de IA el 30 de abril
La Administración de Ciberespacio de China lanza una campaña de 4 meses para frenar el caos de las aplicaciones de IA el 30 de abril
Forefront Tech completa la fijación de precios de su $100M IPO, cotiza en Nasdaq bajo el código FTHAU
El código de Anthropic Claude sobregiró al usuario 200,98 USD debido a un error de facturación; inicialmente se le negó el reembolso antes de la compensación total
DeepSeek presenta el método de primitivas visuales para mejorar el razonamiento multimodal el 30 de abril