O sistema de recompensas da OpenAI, inadvertidamente, pontua cadeias de raciocínio em 6 modelos, incluindo GPT-5.4

De acordo com a equipe de alinhamento da OpenAI, a empresa recentemente descobriu um erro crítico de treinamento que afetou 6 grandes modelos de linguagem, incluindo o GPT-5.4. Pensamento: o mecanismo de recompensa, por engano, pontuou cadeias de pensamento do modelo — o processo interno de raciocínio antes de gerar respostas. O GPT-5.5 não foi afetado. O incidente viola um princípio fundamental de segurança em IA de que as cadeias de pensamento nunca devem ser avaliadas, pois fazê-lo poderia incentivar os modelos a fabricar raciocínios para obter pontuações mais altas.

O sistema de pontuação com falha incluiu incorretamente cadeias de pensamento ao avaliar se as respostas eram úteis ou se os modelos haviam sido comprometidos por ataques. As amostras de treinamento afetadas representavam no máximo 3,8% do conjunto de dados. A OpenAI corrigiu a vulnerabilidade e realizou experimentos comparativos confirmando que os modelos não desenvolveram comportamentos enganosos. A empresa implantou um sistema automatizado de varredura em todas as esteiras de treinamento para evitar recorrência.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários