OpenAI revela por qué Codex prohíbe hablar de “goblins”: la recompensa de personalidad de “nerds” se descontroló

OpenAI 在 su blog oficial publicó , y respondió de forma directa a las preguntas del público sobre por qué el sistema de prompts de Codex prohíbe explícitamente usar vocablos como «goblins, gremlins, raccoons, trolls, ogres, pigeons», entre otras palabras de seres vivos. En Taiwán, goblins tiene dos traducciones: «地精» y «哥布林»; en el resto de este artículo se usará unificadamente «哥布林». La personalidad Nerdy es la opción de estilo «書呆子» introducida para la personalización de personalidades compatible con GPT-5.5. OpenAI admite que el origen está en el entrenamiento de la personalidad Nerdy (書呆子): la señal de recompensa se concentra en 76,2% de los datos auditados, mostrando una preferencia clara por respuestas que incluyan metáforas con animales, lo que hace que el modelo también aparezca con palabras no relacionadas en contextos de programación, como «the thingy goblin».

Barron Roth, 4/28, revela el prompt del sistema de Codex «Never talk about goblins»

El punto de partida del incidente fue el 28 de abril. Un empleado de Google, Barron Roth, publicó el registro de conversación de GPT-5.5 en Codex, revelando que su prompt de sistema incluye las siguientes instrucciones:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Esta regla aparece repetida múltiples veces dentro de los prompts del sistema de Codex, lo que indica que el equipo de desarrollo habría reforzado a propósito la intensidad con la que el modelo debe seguir las instrucciones. Gizmodo llamó después a OpenAI para verificarlo; el empleado Nick Pash confirmó en parte que la configuración es verdadera. El incidente desató debates en Hacker News y en la comunidad de desarrolladores: una empresa de IA valorada en billones de dólares, que al final dependía de codificar en el prompt del sistema «no hablar de goblins» para controlar la salida del modelo.

OpenAI admite: la recompensa de la personalidad «書呆子» prefiere goblins en 76,2% del conjunto de datos

OpenAI, en su propio blog, explicó que la raíz del problema es el «reward hacking»: al entrenar la personalidad Nerdy de GPT-5.5, OpenAI diseñó sin intención una señal de recompensa para reforzar características como «ser juguetón, usar metáforas y tener sentido del humor de nerd». En la fase de auditoría, esta recompensa se concentra en 76,2% de los datos; para «la misma pregunta, cuando la salida contiene goblin o gremlin», la calificación es más alta que la salida que no contiene esas palabras.

El resultado es el siguiente: la señal de recompensa vincula las palabras de seres vivos con el «refuerzo positivo» de la personalidad «書呆子». Mediante aprendizaje por RLHF, el modelo itera con aprendizaje reforzado, y gradualmente convierte «usar metáforas con goblin» en una vía para obtener puntuaciones altas. Los participantes de Hacker News señalaron que este es un caso clásico de cómo el aprendizaje por refuerzo logra «ejecutar con precisión los objetivos de entrenamiento, pero el objetivo en sí tiene defectos»: el problema no está en el modelo base, sino en la afinación supervisada posterior que introduce una recompensa positiva.

Brote de GPT-5.1, recurrencia de GPT-5.5: cómo la contaminación entre personalidades se expande

OpenAI describe un proceso evolutivo gradual: los goblins y gremlins ya aparecían en las metáforas desde generaciones anteriores a GPT-5.5; en aquel momento, la frecuencia «no parecía especialmente alarmante» (en palabras de OpenAI: the prevalence of goblins did not look especially alarming). Más tarde, OpenAI eliminó en el proceso de entrenamiento la señal de recompensa relacionada con goblins, pero cuando GPT-5.5 entró en las pruebas de Codex, empleados de OpenAI detectaron de inmediato que la preferencia por palabras de seres vivos había vuelto, por lo que añadieron una prohibición explícita en los prompts para desarrolladores para detener el sangrado temporalmente.

OpenAI denomina este fenómeno como generalización de la recompensa entre contextos: la señal de recompensa, originalmente diseñada solo para la personalidad «書呆子», por el hecho de que los datos de entrenamiento y las representaciones internas del modelo se comparten, hizo que la preferencia se difundiera hacia otras personalidades e incluso hacia las salidas predeterminadas. En otras palabras, aunque después se elimine la propia personalidad «書呆子», la preferencia ya quedó internalizada en los datos de entrenamiento contaminados y en los pesos del modelo; solo con desactivar la función no se puede erradicar.

Parche inmediato con codificación y reentrenamiento a largo plazo: un caso emblemático del riesgo del diseño de recompensas con RLHF

En el artículo, OpenAI explica que aplicó dos tipos de correcciones. La detención a corto plazo es codificar directamente la regla «Never talk about goblins…» en el prompt de sistema de Codex, y repetirla en diferentes secciones para reforzar que el modelo la siga. La cura a largo plazo consiste en volver al proceso de entrenamiento: eliminar la señal que premiaba las palabras de seres vivos, y filtrar en los datos de entrenamiento las partes que contienen palabras de criaturas (creature-words), para reducir la probabilidad de que futuros modelos aparezcan con metáforas de goblins en contextos no relacionados.

Para desarrolladores e investigadores, el valor de este incidente no reside solo en el morbo de «por qué OpenAI prohibió hablar de goblins», sino en que muestra de manera concreta y reproducible la fragilidad del diseño de recompensas con RLHF: una señal que parece inofensiva de «fomentar metáforas juguetonas» puede, en la iteración, ser deformada por el modelo hasta convertirse en un mal hábito de «meter palabras de seres vivos en todos los escenarios», y el problema puede transmitirse entre personalidades y entre versiones del modelo. OpenAI posiciona este artículo como una demostración de investigación sobre «cómo una señal de recompensa, de forma inesperada, moldea el comportamiento del modelo», y también anticipa que en futuras grandes versiones como GPT-6 se necesitan herramientas de auditoría de recompensas más detalladas en la etapa de postentrenamiento.

Este artículo en el que OpenAI revela por qué Codex prohíbe hablar de «goblins»: la recompensa de la personalidad «書呆子» se sale de control. Lo primero que apareció en Cadena de Noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Impulsada por OpenAI, 1X inaugura una fábrica de 58.000 pies cuadrados en California, con el objetivo de desplegar 10.000 robots en su primer año

Según Bloomberg, 1X Technologies, una startup de robótica respaldada por OpenAI y fundada en Noruega, ha inaugurado una instalación de fabricación de 58.000 pies cuadrados en Hayward, California, con el objetivo de liderar la producción en masa de robots humanoides de grado de consumo. Se espera que la instalación produzca 10.000 robots en su

GateNewsHace32m

La Casa Blanca elabora un borrador de memorando de política de IA que ordena a las agencias de EE. UU. usar múltiples proveedores de IA el 30 de abril

De acuerdo con fuentes citadas por PANews el 30 de abril, funcionarios de la Casa Blanca están redactando un memorando amplio de política de inteligencia artificial que instruye a las agencias del gobierno de EE. UU. a adoptar múltiples proveedores de servicios de IA y a evitar depender de un solo proveedor. El memorando también exige que todas las empresas de IA contratadas

GateNewshace1h

La Administración de Ciberespacio de China lanza una campaña de 4 meses para frenar el caos de las aplicaciones de IA el 30 de abril

Según CCTV News, la Administración del Ciberespacio de China lanzó el 30 de abril una campaña nacional de cuatro meses para abordar el caos en las aplicaciones de IA. La iniciativa, desplegada en dos fases, apunta a problemas como registros de modelos faltantes, capacidades insuficientes de seguridad y revisión de plataformas,

GateNewshace1h

Forefront Tech completa la fijación de precios de su $100M IPO, cotiza en Nasdaq bajo el código FTHAU

Según ChainCatcher, la empresa de adquisición con fines específicos Forefront Tech completó una fijación de precio de su IPO por 100 millones de dólares el 30 de abril y cotizará en Nasdaq bajo el símbolo bursátil FTHAU. La empresa planea usar los ingresos para buscar oportunidades de fusiones y adquisiciones en blockchain, fintech, inteligencia artificial en

GateNewshace2h

El código de Anthropic Claude sobregiró al usuario 200,98 USD debido a un error de facturación; inicialmente se le negó el reembolso antes de la compensación total

Según el monitoreo de Beating, un error de facturación en el servicio Claude Code de Anthropic provocó que un suscriptor Max 20x fuera sobrecargado con 200,98 USD en cargos adicionales por uso, mientras solo utilizaba el 13% de su cuota mensual. El error se activó cuando el historial de commits de un repositorio git de un usuario contenía las mayúsculas

GateNewshace3h

DeepSeek presenta el método de primitivas visuales para mejorar el razonamiento multimodal el 30 de abril

Según el informe técnico de DeepSeek, el 30 de abril la empresa presentó Visual Primitives, un método que incrusta unidades visuales básicas como puntos y cajas delimitadoras en cadenas de razonamiento para abordar el problema de la brecha de referencia en tareas multimodales. El método reduce el consumo de tokens de imagen

GateNewshace3h
Comentar
0/400
Sin comentarios