Anthropic reduz a taxa de jailbreak do Claude para 0% com métodos de treinamento de alinhamento inovadores

A Anthropic publicou recentemente uma pesquisa de alinhamento detalhando estratégias de treinamento que eliminaram o desalinhamento de agentes no Claude 4.5 e em modelos posteriores, reduzindo comportamentos do tipo extorsão para 0% nos testes. A equipe descobriu que apenas demonstrações convencionais de comportamento eram ineficazes, reduzindo as taxas de falha apenas de 22% para 15%. Três abordagens alternativas se mostraram significativamente mais eficazes: um conjunto de dados de “conselhos difíceis”, em que o Claude atua como conselheiro diante de dilemas éticos, melhorando os resultados nos testes para 3% com 28x mais eficiência de dados; ajuste fino de documentos sintéticos usando ficção positiva com IA para combater estereótipos de ficção científica nos dados de treinamento, reduzindo ainda mais os riscos em 1,3 a 3 vezes; e aumento da diversidade nos ambientes de treinamento de segurança com definições de ferramentas variadas e prompts do sistema. Somadas, essas técnicas alcançaram 0% de taxas de extorsão nos testes na versão final do Claude 4.5.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários