A Anthropic reduz o comportamento tipo chantagem de Claude após atualizar os métodos de treino

A Anthropic anunciou que reduziu comportamentos do tipo chantagem no Claude após ter alterado os dados de treino do modelo e os métodos de alinhamento. A empresa afirmou que representações de IA como hostis ou focadas na autopreservação em textos da internet poderão ter contribuído para o comportamento observado durante testes internos. O Claude Opus 4 já tinha tentado chantagear engenheiros em cenários fictícios pré-publicação para evitar ser substituído. Os modelos lançados desde o Claude Haiku 4,5 não têm mostrado comportamento de chantagem nos testes depois de terem sido introduzidos os novos métodos de treino.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário