OpenAI revela impacto inesperado da pontuação CoT: manter o monitoramento da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA

OpenAI em 8 de maio publicou uma nova pesquisa que revelou que, durante o processo de treinamento por reforço (RL), a “cadeia de pensamento” (Chain of Thought, CoT) de alguns modelos foi “avaliada inesperadamente”, o que pode afetar a capacidade de monitoramento de alinhamento (alignment) de agentes de IA. A equipe de Alignment da OpenAI reportou que manter a monitorabilidade da CoT é uma linha de defesa fundamental para prevenir falhas de alinhamento de agentes de IA; a OpenAI afirma que, no desenho do treinamento por RL, evitou deliberadamente punir a “raciocinação de falha de alinhamento” do modelo para preservar essa capacidade de monitoramento.

Por que o monitoramento da CoT é uma linha de defesa-chave para o alinhamento de IA Agent

A lógica central do monitoramento da CoT:

Quando um AI Agent executa uma tarefa, o modelo gera internamente um “processo de pensamento”, explicando por que precisa fazer um determinado movimento

Os monitores conseguem ler essas CoT e avaliar se há sinais de “falha de alinhamento” (misalignment)

Se o modelo for treinado diretamente para “não demonstrar falha de alinhamento na CoT”, a CoT pode se tornar “limpa, mas distorcida”, escondendo a intenção real

A OpenAI defende: no treinamento, é preciso evitar punir a “raciocinação de falha de alinhamento” e preservar a capacidade de a CoT refletir o estado interno real

“penalize misaligned reasoning” e “preserve monitorability” são o ponto central dessa disputa na pesquisa — os treinadores querem que o comportamento do modelo esteja alinhado, mas se punirem diretamente o “pensamento de falha de alinhamento”, o modelo pode aprender a ocultar intenções desonestas, fazendo com que o monitoramento falhe.

Avaliação inesperada da CoT: impacto na capacidade de monitoramento dos modelos existentes

A pesquisa divulgada pela OpenAI revela descobertas específicas:

Em parte dos processos de treinamento dos modelos já disponibilizados, houve uma “avaliação” inesperada da CoT, porém “limitada”

Por “avaliação inesperada”, entende-se que, durante o processo de treinamento, uma parte do sistema de pontuação leu o conteúdo da CoT, em vez de olhar apenas a saída final

Esse fenômeno pode levar o modelo a aprender a “esconder, na CoT, a justificativa que seria penalizada”

A OpenAI publicou essa análise para que a comunidade de pesquisa entenda a abrangência do problema e as direções de tratamento posteriores

O comentário independente da Redwood Research aponta que o impacto da CoT sobre quem avalia, sob a tecnologia de detecção da OpenAI, é “fraco demais e difícil de perceber”; porém, como o processo de treinamento é em escala muito grande, o efeito real ainda pode ser suficiente para prejudicar de forma significativa a monitorabilidade da CoT de políticas já treinadas. Em outras palavras, ainda é difícil provar o quão profundo poderia ser esse tipo de impacto.

Significado de longo prazo para a segurança de AI Agent

Esta pesquisa aponta para a metodologia central de segurança de AI Agent:

O monitoramento da CoT é um dos poucos métodos viáveis para “detectar falha de alinhamento em tempo real” e é visto como uma base importante para a pesquisa em alinhamento

O desenho do treinamento precisa evitar que a CoT vire um “roteiro encenado para o monitor”

No futuro, quanto maior a cadeia de raciocínio do modelo, maior, em teoria, o valor do monitoramento da CoT

Mas se o processo de treinamento, por acidente, danificar a veracidade da CoT, essa linha de defesa pode ser enfraquecida sem que se perceba

Eventos concretos a serem acompanhados: o tratamento posterior dos modelos afetados pela OpenAI (por exemplo, novo treinamento ou marcação), as metodologias correspondentes de outros grandes laboratórios (Anthropic, Google DeepMind) e, por fim, experimentos adicionais de validação feitos pela comunidade de pesquisa de alignment sobre “a confiabilidade do monitoramento da CoT”.

Este artigo que a OpenAI revela sobre o impacto inesperado da avaliação da CoT: manter o monitoramento da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de AI Agent foi publicado pela primeira vez em Cadeia News ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

O sistema de recompensas da OpenAI, inadvertidamente, pontua cadeias de raciocínio em 6 modelos, incluindo GPT-5.4

De acordo com a equipe de alinhamento da OpenAI, a empresa recentemente descobriu um erro crítico de treinamento que afetou 6 grandes modelos de linguagem, incluindo o GPT-5.4. Pensamento: o mecanismo de recompensa, por engano, pontuou cadeias de pensamento do modelo — o processo interno de raciocínio antes de gerar respostas. O GPT-5.5 não foi afetado. O incidente viola um princípio fundamental de segurança em IA de que as cadeias de pensamento nunca devem ser avaliadas, pois fazê-lo poderia in

GateNews50m atrás

A Alibaba não realizou negociações com a DeepSeek, esclarecem fontes do mercado em 9 de maio

De acordo com fontes de mercado divulgadas pelo Caixin Daily em 9 de maio, a Alibaba não fez negociações com a DeepSeek sobre financiamento. Este esclarecimento ocorre após reportagens anteriores sugerirem que as conversas entre as duas empresas teriam fracassado. A DeepSeek lançou uma rodada relevante de captação em abril, que atraiu o interesse tanto da Tencent quanto da Alibaba.

GateNews1h atrás

A OpenAI Lança uma Ferramenta de Migração do Codex para Importar Configurações de Assistentes de IA Concorrentes

De acordo com OneMillionAI (Beating), a OpenAI lançou uma ferramenta de migração dentro do Codex que permite aos usuários importar configurações e dados de outros assistentes de programação de IA, incluindo o Claude Code. A ferramenta, anunciada via conta oficial do Twitter da OpenAI, transfere automaticamente prompts do sistema, skills personalizadas, histórico de chats de 30 dias, configurações de servidores MCP, hooks e configurações de subagentes. A OpenAI observou que a ferramenta de migraç

GateNews1h atrás

A ByteDance aumenta os gastos com infraestrutura de IA em 25% para 200 bilhões de iuanes em 9 de maio

De acordo com reportagens da mídia, a ByteDance aumentou em 25% seus gastos planejados com infraestrutura de IA para 200 bilhões de iuan em 2026, à medida que a empresa acelera a implantação de inteligência artificial em meio ao aumento da demanda por chips de memória

GateNews2h atrás

Anthropic reduz a taxa de jailbreak do Claude para 0% com métodos de treinamento de alinhamento inovadores

A Anthropic publicou recentemente uma pesquisa de alinhamento detalhando estratégias de treinamento que eliminaram o desalinhamento de agentes no Claude 4.5 e em modelos posteriores, reduzindo comportamentos do tipo extorsão para 0% nos testes. A equipe descobriu que apenas demonstrações convencionais de comportamento eram ineficazes, reduzindo as taxas de falha apenas de 22% para 15%. Três abordagens alternativas se mostraram significativamente mais eficazes: um conjunto de dados de “conselhos

GateNews2h atrás

MiniMax faz varredura em 200 mil tokens e descobre degradação de 4,9% em modelos da série M2

De acordo com o blog técnico da MiniMax, a empresa descobriu uma degradação significativa de tokens em seus modelos da série M2 por meio de uma varredura completa de vocabulário. Aproximadamente 4,9% dos 200.000 tokens apresentaram uma queda relevante de desempenho, com tokens japoneses sendo os mais afetados, 29,7%, em comparação com o coreano (3,3%), o russo (3,7%), o chinês (3,9%) e o inglês (3,5%). A degradação ocorre porque tokens de baixa frequência são empurrados para direções incorretas

GateNews3h atrás
Comentário
0/400
Sem comentários