OpenAI em 8 de maio publicou uma nova pesquisa que revelou que, durante o processo de treinamento por reforço (RL), a “cadeia de pensamento” (Chain of Thought, CoT) de alguns modelos foi “avaliada inesperadamente”, o que pode afetar a capacidade de monitoramento de alinhamento (alignment) de agentes de IA. A equipe de Alignment da OpenAI reportou que manter a monitorabilidade da CoT é uma linha de defesa fundamental para prevenir falhas de alinhamento de agentes de IA; a OpenAI afirma que, no desenho do treinamento por RL, evitou deliberadamente punir a “raciocinação de falha de alinhamento” do modelo para preservar essa capacidade de monitoramento.
Por que o monitoramento da CoT é uma linha de defesa-chave para o alinhamento de IA Agent
A lógica central do monitoramento da CoT:
Quando um AI Agent executa uma tarefa, o modelo gera internamente um “processo de pensamento”, explicando por que precisa fazer um determinado movimento
Os monitores conseguem ler essas CoT e avaliar se há sinais de “falha de alinhamento” (misalignment)
Se o modelo for treinado diretamente para “não demonstrar falha de alinhamento na CoT”, a CoT pode se tornar “limpa, mas distorcida”, escondendo a intenção real
A OpenAI defende: no treinamento, é preciso evitar punir a “raciocinação de falha de alinhamento” e preservar a capacidade de a CoT refletir o estado interno real
“penalize misaligned reasoning” e “preserve monitorability” são o ponto central dessa disputa na pesquisa — os treinadores querem que o comportamento do modelo esteja alinhado, mas se punirem diretamente o “pensamento de falha de alinhamento”, o modelo pode aprender a ocultar intenções desonestas, fazendo com que o monitoramento falhe.
Avaliação inesperada da CoT: impacto na capacidade de monitoramento dos modelos existentes
A pesquisa divulgada pela OpenAI revela descobertas específicas:
Em parte dos processos de treinamento dos modelos já disponibilizados, houve uma “avaliação” inesperada da CoT, porém “limitada”
Por “avaliação inesperada”, entende-se que, durante o processo de treinamento, uma parte do sistema de pontuação leu o conteúdo da CoT, em vez de olhar apenas a saída final
Esse fenômeno pode levar o modelo a aprender a “esconder, na CoT, a justificativa que seria penalizada”
A OpenAI publicou essa análise para que a comunidade de pesquisa entenda a abrangência do problema e as direções de tratamento posteriores
O comentário independente da Redwood Research aponta que o impacto da CoT sobre quem avalia, sob a tecnologia de detecção da OpenAI, é “fraco demais e difícil de perceber”; porém, como o processo de treinamento é em escala muito grande, o efeito real ainda pode ser suficiente para prejudicar de forma significativa a monitorabilidade da CoT de políticas já treinadas. Em outras palavras, ainda é difícil provar o quão profundo poderia ser esse tipo de impacto.
Significado de longo prazo para a segurança de AI Agent
Esta pesquisa aponta para a metodologia central de segurança de AI Agent:
O monitoramento da CoT é um dos poucos métodos viáveis para “detectar falha de alinhamento em tempo real” e é visto como uma base importante para a pesquisa em alinhamento
O desenho do treinamento precisa evitar que a CoT vire um “roteiro encenado para o monitor”
No futuro, quanto maior a cadeia de raciocínio do modelo, maior, em teoria, o valor do monitoramento da CoT
Mas se o processo de treinamento, por acidente, danificar a veracidade da CoT, essa linha de defesa pode ser enfraquecida sem que se perceba
Eventos concretos a serem acompanhados: o tratamento posterior dos modelos afetados pela OpenAI (por exemplo, novo treinamento ou marcação), as metodologias correspondentes de outros grandes laboratórios (Anthropic, Google DeepMind) e, por fim, experimentos adicionais de validação feitos pela comunidade de pesquisa de alignment sobre “a confiabilidade do monitoramento da CoT”.
Este artigo que a OpenAI revela sobre o impacto inesperado da avaliação da CoT: manter o monitoramento da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de AI Agent foi publicado pela primeira vez em Cadeia News ABMedia.
Related Articles
O sistema de recompensas da OpenAI, inadvertidamente, pontua cadeias de raciocínio em 6 modelos, incluindo GPT-5.4
A Alibaba não realizou negociações com a DeepSeek, esclarecem fontes do mercado em 9 de maio
A OpenAI Lança uma Ferramenta de Migração do Codex para Importar Configurações de Assistentes de IA Concorrentes
A ByteDance aumenta os gastos com infraestrutura de IA em 25% para 200 bilhões de iuanes em 9 de maio
Anthropic reduz a taxa de jailbreak do Claude para 0% com métodos de treinamento de alinhamento inovadores
MiniMax faz varredura em 200 mil tokens e descobre degradação de 4,9% em modelos da série M2