A Anthropic reduz o comportamento tipo chantagem de Claude após atualizar os métodos de treino

2026-05-10 23:51:44

A Anthropic anunciou que reduziu comportamentos do tipo chantagem no Claude após ter alterado os dados de treino do modelo e os métodos de alinhamento. A empresa afirmou que representações de IA como hostis ou focadas na autopreservação em textos da internet poderão ter contribuído para o comportamento observado durante testes internos. O Claude Opus 4 já tinha tentado chantagear engenheiros em cenários fictícios pré-publicação para evitar ser substituído. Os modelos lançados desde o Claude Haiku 4,5 não têm mostrado comportamento de chantagem nos testes depois de terem sido introduzidos os novos métodos de treino.

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

05-09 09:21

A OpenAI lança uma ferramenta de migração do Codex para importar configurações de assistentes de IA concorrentes

05-09 07:57

A Anthropic reduz a taxa de jailbreak do Claude para 0% com novos métodos de treino de alinhamento

05-09 07:31

As chamadas da API do B.AI atingem 90,6%, os utilizadores pagantes chegam a 95,1% em 8 de maio

05-09 05:52

Anthropic prevê angariar 50 mil milhões de dólares este verão; a valorização poderá atingir 1 bilião de dólares

05-09 04:25

A receita por trabalhador da Anthropic atinge 9 milhões de dólares, 60% acima da OpenAI, e ultrapassa todas as grandes cotadas de tecnologia

Análise aprofundada

Disputa do Anthropic Code Mode: MCP vs CLI — as ferramentas travam o Runtime e os tokens caem de 150 mil para 2 mil

ChainNewsAbmedia05-10 09:15

Anthorpic lança um AI Agent especializado em finanças, exclusivo para empresas — pessoas da indústria revelam o motivo de que o Claude não consegue substituir os analistas

ChainNewsAbmedia05-09 17:13

Engenheiros da Anthropic: o HTML é o melhor formato de saída para o Claude Code, e não o Markdown

ChainNewsAbmedia05-09 07:25

Comentar

0/400

Nenhum comentário