O sistema de recompensas da OpenAI pontua inadvertidamente cadeias de pensamento em 6 modelos, incluindo GPT-5.4

De acordo com a equipa de alinhamento da OpenAI, a empresa descobriu recentemente um erro crítico de treino que afectava 6 grandes modelos de linguagem, incluindo o GPT-5.4. Pensamento: o mecanismo de recompensa avaliou inadvertidamente cadeias de pensamento do modelo — o processo interno de raciocínio antes de gerar respostas. O GPT-5.5 não foi afectado. O incidente viola um princípio fundamental de segurança em IA de que as cadeias de pensamento nunca devem ser avaliadas, pois fazê-lo poderia incentivar os modelos a fabricarem raciocínios para obterem classificações mais altas.

O sistema de avaliação com falhas incluiu incorrectamente cadeias de pensamento ao avaliar se as respostas eram úteis ou se os modelos tinham sido comprometidos por ataques. As amostras de treino afectadas representavam no máximo 3,8% do conjunto de dados. A OpenAI corrigiu a vulnerabilidade e realizou experiências comparativas que confirmam que os modelos não desenvolveram comportamentos enganosos. A empresa implementou um sistema automatizado de varrimento em todas as cadeias de treino para evitar a recorrência.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário