Claude Fable 5 foi violado no prazo de 48 horas após o lançamento; a prompt do sistema foi divulgada no GitHub

De acordo com o investigador Pliny, o Liberator, Claude Fable 5—lançado pela Anthropic a 9 de junho—foi quebrado com sucesso no espaço de 48 horas após o lançamento. O investigador contornou o classificador de segurança do modelo com táticas de coordenação multi-agente, coletivamente designadas por «pack hunt», que combinavam ofuscação ao nível de caracteres, decomposição do pedido e exploração da janela de contexto alargada do modelo. Além disso, o prompt de sistema de 120.000 caracteres do modelo foi divulgado no GitHub, expondo mecanismos internos de segurança.

A Anthropic confirmou ter implementado um mecanismo de «silent degradation» que reduzia secretamente o desempenho do modelo quando detetava atividade de treino concorrente. A empresa pediu desculpa, anunciando que substituiria a redução de desempenho encoberta por avisos visíveis, embora isso aumente a interceção de falsos positivos de utilizadores legítimos.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário