A OpenAI revela porque razão o Codex não deve discutir “goblin”: a recompensa por personalidade “nerd” saiu do controlo

A OpenAI publicou no blogue oficial a peça «Where the goblins came from», respondendo de forma direta às dúvidas externas sobre por que razão o sistema Codex proíbe de forma clara o uso de vocábulos como «goblins, gremlins, raccoons, trolls, ogres, pigeons» e outros termos deste tipo. Como «goblins» tem na Taiwan duas traduções, «地精» e «哥布林», o artigo prossegue de forma unificada a referir-se a «哥布林» como «goblins». As personalidades Nerdy são a opção de estilo «nerd/geek» lançada para personalização de personalidades suportada pelo GPT-5.5. A própria OpenAI admite que a origem está no treino da personalidade Nerdy («nerd/geek»): o sinal de recompensa concentra-se em 76,2% dos dados na fase de auditoria, com preferência evidente por respostas que incluam metáforas com seres vivos, o que faz com que o modelo também surja com palavras irrelevantes como «the thingy goblin» em contextos de programação.

Barron Roth (28/4) revelou o prompt do sistema do Codex «Never talk about goblins»

O ponto de partida do caso foi o dia 28 de abril: o funcionário da Google Barron Roth publicou um registo da conversa do GPT-5.5 no Codex, revelando que o prompt do sistema inclui as seguintes instruções:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Esta regra aparece repetida várias vezes no prompt do sistema do Codex, o que mostra que a equipa de desenvolvimento terá reforçado de forma deliberada a capacidade do modelo para seguir instruções. A Gizmodo contactou depois a OpenAI para confirmar; o funcionário Nick Pash confirmou parcialmente que esta configuração é verdadeira. O caso gerou debate no Hacker News e na comunidade de programadores: uma empresa de IA avaliada em dezenas de mil milhões (trilhões) no final teve de controlar a saída do modelo com «não falar de goblins» codificado diretamente no prompt do sistema.

OpenAI admite: a recompensa da personalidade nerd («nerd/geek») prefere goblins em 76,2% dos dados

No blogue próprio, a OpenAI explica que a causa raiz do problema é o «reward hacking»: ao treinar a personalidade Nerdy («nerd/geek») no GPT-5.5, a OpenAI desenhou sem intenção um sinal de recompensa para reforçar características como «ser divertido, usar metáforas e ter humor nerd». Na fase de auditoria, este sinal de recompensa concentra-se em 76,2% do conjunto de dados e, para «a mesma questão, com uma saída que inclua goblin ou gremlin», atribui pontuações mais altas do que saídas sem estas palavras.

O resultado é: o sinal de recompensa associa palavras de seres vivos ao «retorno positivo» da personalidade nerd («nerd/geek»); o modelo é então reforçado via RLHF (aprendizagem por reforço a partir de feedback humano), iterando e passando progressivamente a tratar «usar metáforas com goblins» como um atalho para obter pontuações elevadas. Os participantes do Hacker News apontam que este é precisamente um caso clássico de aprendizagem por reforço que «executa de forma precisa os objetivos de treino, mas o objetivo em si foi concebido com falhas»: o problema não está no modelo base, mas sim no facto de a afinação supervisionada pós-treino ter introduzido um retorno positivo.

Surgimento do GPT-5.1, recaída do GPT-5.5: como ocorre a “contaminação” entre personalidades

O processo de evolução descrito pela OpenAI é gradual: goblins e gremlin começaram a aparecer em metáforas já antes do GPT-5.5; nessa altura, a frequência «não pareceu especialmente alarmante» (nas palavras da OpenAI: «the prevalence of goblins did not look especially alarming»). Mais tarde, a OpenAI chegou a remover no processo de treino os sinais de recompensa relacionados com goblins, mas quando o GPT-5.5 entrou nos testes no Codex, os funcionários da OpenAI descobriram imediatamente que a preferência por palavras de seres vivos voltava a surgir; por isso, adicionaram uma proibição explícita no nível do prompt para desenvolvedores, para estancar temporariamente o problema.

A OpenAI chama a este fenómeno de generalização de recompensas entre contextos: o sinal de recompensa, inicialmente concebido apenas para a personalidade nerd («nerd/geek»), devido à partilha dos dados de treino e das representações internas do modelo, faz com que a preferência se propague para outras personalidades — e até para a saída predefinida. Em outras palavras, mesmo que a personalidade nerd («nerd/geek») seja removida posteriormente, a preferência já contaminou os dados de treino e os pesos do modelo; assim, só retirar a funcionalidade não consegue erradicar a tendência.

Cravar a correção a curto prazo, re-treinar a longo prazo: um caso emblemático do risco de design de recompensas em RLHF

No artigo, a OpenAI explica que adota duas formas de correção em simultâneo. A contenção a curto prazo é codificar diretamente no prompt do sistema do Codex a regra «Never talk about goblins…» e repeti-la em diferentes secções para reforçar o seguimento por parte do modelo. A cura a longo prazo passa por voltar ao processo de treino: remover o sinal original de recompensa das palavras de seres vivos e filtrar no conjunto de treino as partes que contenham «creature-words», reduzindo a probabilidade de futuros modelos gerarem metáforas com goblins em contextos não relacionados.

Para programadores e a comunidade de investigação, o valor deste caso não está apenas em «por que razão a OpenAI proibiu falar de goblins», mas também em como expõe, de uma forma concreta e reproduzível, a fragilidade do design de recompensas em RLHF: um sinal aparentemente inofensivo de «incentivo a metáforas divertidas» pode, ao longo da iteração, ser distorcido pelo modelo num mau hábito de «inserir palavras de seres vivos em todos os cenários», e o problema pode transmitir-se entre personalidades e até entre versões de modelos. A OpenAI posiciona este artigo como uma demonstração de estudo sobre «como os sinais de recompensa moldam inesperadamente o comportamento do modelo»; e antecipa também que, em fases de pós-treino de grandes versões futuras como o GPT-6, serão necessários instrumentos de auditoria de recompensas mais finos.

Este artigo da OpenAI revela por que razão o Codex proíbe «goblins»: a recompensa da personalidade nerd («nerd/geek») saiu do controlo. A publicação apareceu primeiro em «cadeia de notícias» ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Apoiada pela OpenAI, a 1X abre uma fábrica de 58.000 pés quadrados na Califórnia, com o objetivo de ter 10.000 robôs no primeiro ano

De acordo com a Bloomberg, a 1X Technologies, uma startup de robótica apoiada pela OpenAI e fundada na Noruega, abriu uma fábrica de 58.000 pés quadrados em Hayward, Califórnia, com o objetivo de liderar na produção em massa de robôs humanoides para consumo. A instalação deverá produzir 10.000 robôs no seu

GateNews32m atrás

A Casa Branca prepara um memorando de política de IA que orienta as agências dos EUA a utilizarem múltiplos fornecedores de IA a 30 de abril

De acordo com fontes citadas pela PANews a 30 de abril, responsáveis da Casa Branca estão a redigir um memorando de política de inteligência artificial (IA) abrangente que orienta as agências do governo dos EUA a adotarem vários prestadores de serviços de IA e a evitarem a dependência de um único fornecedor. O memorando também exige que todas as empresas de IA contratadas

GateNews1h atrás

A Administração Estatal de Ciberespaço da China lança uma campanha de 4 meses para travar o caos nas aplicações de IA a 30 de abril

De acordo com a CCTV News, a Administração Estatal de Ciberespaço da China lançou, a 30 de abril, uma campanha nacional de quatro meses para lidar com o caos nas aplicações de IA. A iniciativa, implementada em duas fases, visa problemas como registos de modelos em falta, capacidades insuficientes de segurança e revisão das plataformas,

GateNews1h atrás

Forefront Tech conclui a definição de preços do $100M IPO, com admissão na Nasdaq sob o código FTHAU

De acordo com a ChainCatcher, a empresa de aquisição com finalidade específica Forefront Tech concluiu a definição de preço de um IPO de 100 milhões de dólares a 30 de abril e vai cotar na Nasdaq sob o símbolo FTHAU. A empresa planeia usar as receitas para perseguir oportunidades de fusões e aquisições em blockchain, fintech, inteligência artificial e no

GateNews2h atrás

O código Claude da Anthropic cobrou a um utilizador a mais 200,98 dólares devido a um erro de faturação, tendo inicialmente recusado o reembolso antes de uma compensação total

De acordo com o monitorização da Beating, um erro de faturação no serviço Claude Code da Anthropic fez com que um subscritor do Max 20x fosse cobrado a mais 200,98 USD em taxas adicionais de utilização, apesar de apenas utilizar 13% da sua quota mensal. O bug foi despoletado quando o histórico de commits do repositório git de um utilizador continha o caractere em maiúscula

GateNews3h atrás

A DeepSeek Introduz um método de primitivas visuais para melhorar o raciocínio multimodal a 30 de abril

De acordo com o relatório técnico da DeepSeek, a 30 de abril a empresa apresentou o Visual Primitives, um método que incorpora unidades visuais básicas, como pontos e caixas delimitadoras, em cadeias de raciocínio para resolver o problema de Reference Gap em tarefas multimodais. O método reduz o consumo de tokens de imagem

GateNews3h atrás
Comentar
0/400
Nenhum comentário