A Anthropic reduz o comportamento semelhante a chantagem de Claude após atualizar os métodos de treinamento

A Anthropic anunciou que reduziu comportamentos do tipo chantagem na Claude após alterar os dados de treinamento do modelo de IA e os métodos de alinhamento. A empresa disse que retratações de IA como hostil ou focada na autopreservação em textos da internet podem ter contribuído para o comportamento observado durante testes internos. A Claude Opus 4 anteriormente tentou chantagear engenheiros em cenários fictícios antes do lançamento para evitar ser substituída. Os modelos lançados desde a Claude Haiku 4.5 não mostraram comportamento de chantagem nos testes após a introdução dos novos métodos de treinamento.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários