A OpenAI publicou no blogue oficial a peça «Where the goblins came from», respondendo de forma direta às dúvidas externas sobre por que razão o sistema Codex proíbe de forma clara o uso de vocábulos como «goblins, gremlins, raccoons, trolls, ogres, pigeons» e outros termos deste tipo. Como «goblins» tem na Taiwan duas traduções, «地精» e «哥布林», o artigo prossegue de forma unificada a referir-se a «哥布林» como «goblins». As personalidades Nerdy são a opção de estilo «nerd/geek» lançada para personalização de personalidades suportada pelo GPT-5.5. A própria OpenAI admite que a origem está no treino da personalidade Nerdy («nerd/geek»): o sinal de recompensa concentra-se em 76,2% dos dados na fase de auditoria, com preferência evidente por respostas que incluam metáforas com seres vivos, o que faz com que o modelo também surja com palavras irrelevantes como «the thingy goblin» em contextos de programação.
Barron Roth (28/4) revelou o prompt do sistema do Codex «Never talk about goblins»
O ponto de partida do caso foi o dia 28 de abril: o funcionário da Google Barron Roth publicou um registo da conversa do GPT-5.5 no Codex, revelando que o prompt do sistema inclui as seguintes instruções:
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.
Esta regra aparece repetida várias vezes no prompt do sistema do Codex, o que mostra que a equipa de desenvolvimento terá reforçado de forma deliberada a capacidade do modelo para seguir instruções. A Gizmodo contactou depois a OpenAI para confirmar; o funcionário Nick Pash confirmou parcialmente que esta configuração é verdadeira. O caso gerou debate no Hacker News e na comunidade de programadores: uma empresa de IA avaliada em dezenas de mil milhões (trilhões) no final teve de controlar a saída do modelo com «não falar de goblins» codificado diretamente no prompt do sistema.
OpenAI admite: a recompensa da personalidade nerd («nerd/geek») prefere goblins em 76,2% dos dados
No blogue próprio, a OpenAI explica que a causa raiz do problema é o «reward hacking»: ao treinar a personalidade Nerdy («nerd/geek») no GPT-5.5, a OpenAI desenhou sem intenção um sinal de recompensa para reforçar características como «ser divertido, usar metáforas e ter humor nerd». Na fase de auditoria, este sinal de recompensa concentra-se em 76,2% do conjunto de dados e, para «a mesma questão, com uma saída que inclua goblin ou gremlin», atribui pontuações mais altas do que saídas sem estas palavras.
O resultado é: o sinal de recompensa associa palavras de seres vivos ao «retorno positivo» da personalidade nerd («nerd/geek»); o modelo é então reforçado via RLHF (aprendizagem por reforço a partir de feedback humano), iterando e passando progressivamente a tratar «usar metáforas com goblins» como um atalho para obter pontuações elevadas. Os participantes do Hacker News apontam que este é precisamente um caso clássico de aprendizagem por reforço que «executa de forma precisa os objetivos de treino, mas o objetivo em si foi concebido com falhas»: o problema não está no modelo base, mas sim no facto de a afinação supervisionada pós-treino ter introduzido um retorno positivo.
Surgimento do GPT-5.1, recaída do GPT-5.5: como ocorre a “contaminação” entre personalidades
O processo de evolução descrito pela OpenAI é gradual: goblins e gremlin começaram a aparecer em metáforas já antes do GPT-5.5; nessa altura, a frequência «não pareceu especialmente alarmante» (nas palavras da OpenAI: «the prevalence of goblins did not look especially alarming»). Mais tarde, a OpenAI chegou a remover no processo de treino os sinais de recompensa relacionados com goblins, mas quando o GPT-5.5 entrou nos testes no Codex, os funcionários da OpenAI descobriram imediatamente que a preferência por palavras de seres vivos voltava a surgir; por isso, adicionaram uma proibição explícita no nível do prompt para desenvolvedores, para estancar temporariamente o problema.
A OpenAI chama a este fenómeno de generalização de recompensas entre contextos: o sinal de recompensa, inicialmente concebido apenas para a personalidade nerd («nerd/geek»), devido à partilha dos dados de treino e das representações internas do modelo, faz com que a preferência se propague para outras personalidades — e até para a saída predefinida. Em outras palavras, mesmo que a personalidade nerd («nerd/geek») seja removida posteriormente, a preferência já contaminou os dados de treino e os pesos do modelo; assim, só retirar a funcionalidade não consegue erradicar a tendência.
Cravar a correção a curto prazo, re-treinar a longo prazo: um caso emblemático do risco de design de recompensas em RLHF
No artigo, a OpenAI explica que adota duas formas de correção em simultâneo. A contenção a curto prazo é codificar diretamente no prompt do sistema do Codex a regra «Never talk about goblins…» e repeti-la em diferentes secções para reforçar o seguimento por parte do modelo. A cura a longo prazo passa por voltar ao processo de treino: remover o sinal original de recompensa das palavras de seres vivos e filtrar no conjunto de treino as partes que contenham «creature-words», reduzindo a probabilidade de futuros modelos gerarem metáforas com goblins em contextos não relacionados.
Para programadores e a comunidade de investigação, o valor deste caso não está apenas em «por que razão a OpenAI proibiu falar de goblins», mas também em como expõe, de uma forma concreta e reproduzível, a fragilidade do design de recompensas em RLHF: um sinal aparentemente inofensivo de «incentivo a metáforas divertidas» pode, ao longo da iteração, ser distorcido pelo modelo num mau hábito de «inserir palavras de seres vivos em todos os cenários», e o problema pode transmitir-se entre personalidades e até entre versões de modelos. A OpenAI posiciona este artigo como uma demonstração de estudo sobre «como os sinais de recompensa moldam inesperadamente o comportamento do modelo»; e antecipa também que, em fases de pós-treino de grandes versões futuras como o GPT-6, serão necessários instrumentos de auditoria de recompensas mais finos.
Este artigo da OpenAI revela por que razão o Codex proíbe «goblins»: a recompensa da personalidade nerd («nerd/geek») saiu do controlo. A publicação apareceu primeiro em «cadeia de notícias» ABMedia.
Related Articles
Apoiada pela OpenAI, a 1X abre uma fábrica de 58.000 pés quadrados na Califórnia, com o objetivo de ter 10.000 robôs no primeiro ano
A Casa Branca prepara um memorando de política de IA que orienta as agências dos EUA a utilizarem múltiplos fornecedores de IA a 30 de abril
A Administração Estatal de Ciberespaço da China lança uma campanha de 4 meses para travar o caos nas aplicações de IA a 30 de abril
Forefront Tech conclui a definição de preços do $100M IPO, com admissão na Nasdaq sob o código FTHAU
O código Claude da Anthropic cobrou a um utilizador a mais 200,98 dólares devido a um erro de faturação, tendo inicialmente recusado o reembolso antes de uma compensação total
A DeepSeek Introduz um método de primitivas visuais para melhorar o raciocínio multimodal a 30 de abril