Claude Fable 5 adiciona um mecanismo de deteção de destilação, com uma taxa de ativação inferior a 5%

Claude Fable 5蒸餾偵測機制

A Anthropic publicou oficialmente, a 9 de junho, o Claude Fable 5, o primeiro modelo do nível Mythos aberto ao público, integrando um mecanismo de deteção de destilação impulsionado por classificadores de IA: quando o sistema identifica tentativas de destilação entre três categorias de pedidos de alto risco, rebaixa automaticamente a conversa para respostas do Opus 4.8. A Anthropic confirmou que este mecanismo afeta, em média, menos de 5% das sessões de conversa.

Especificações da deteção de destilação: três condições de disparo e mecanismo de rebaixamento automático

De acordo com uma declaração oficial da Anthropic, as condições de disparo do classificador de IA do Claude Fable 5 são as seguintes:

· Pedidos relacionados com ataques de cibersegurança

· Pedidos relacionados com armas biológicas ou químicas

· Tentativas de destilação do modelo (incluindo técnicas de extração como reescrita de prompts, steering vectors e afinações eficientes com parâmetros PEFT)

Após o disparo, o sistema rebaixa automaticamente a conversa para respostas do Claude Opus 4.8 e notifica o utilizador. A Anthropic confirmou que, no caso de tarefas de cibersegurança de cariz ofensivo, a taxa de sucesso do bloqueio é de 100%, e que o impacto global do mecanismo é inferior a 5% das sessões de conversa.

Números confirmados das acusações de fevereiro de 2026

A Anthropic confirmou oficialmente que os alvos das acusações de fevereiro de 2026 foram a DeepSeek, a Moonshot AI e a MiniMax, que iniciaram mais de 16 milhões de consultas através de cerca de 24 mil contas forjadas, usando sistematicamente a extração das saídas do Claude para treinar os seus próprios modelos.

Os números de volume de consultas decompostos posteriormente pelo investigador de aprendizagem automática Nathan Lambert (investigador independente externo, não oficial da Anthropic) são: cerca de 150 mil consultas para a DeepSeek (para modelos de inferência e recompensas), cerca de 3,4 milhões de consultas para a Moonshot AI e cerca de 13 milhões de consultas para a MiniMax; as duas últimas somadas correspondem a cerca de 150 mil a 400 mil milhões de tokens de dados de pós-treino. Os números de Lambert são a sua análise independente e não dados oficiais da Anthropic.

Limitações conhecidas do mecanismo: fronteiras pouco claras entre destilação legítima e não autorizada

A Anthropic confirmou que a “destilação legítima” (ao utilizar saídas do Claude ao abrigo de autorização) e a “destilação não autorizada” são quase idênticas do ponto de vista da operação técnica, existindo uma zona cinzenta na definição da fronteira. Nathan Lambert, na sua análise externa, afirmou: “Bloquear a destilação seria muito mais difícil do que restringir o envio de mercadorias físicas como GPUs.”

Lambert também indicou que, enquanto a Anthropic continuar a vender a API, os canais de destilação não poderão ser completamente fechados; mesmo em ambientes com GPUs limitadas, os laboratórios chineses continuam a ter infraestruturas de aprendizagem por reforço (RL) bem desenvolvidas, podendo ainda recorrer a modelos de código aberto da Meta e da Google e a pipelines próprios de dados sintéticos. As avaliações acima são análises externas e independentes de Lambert e não representam a posição da Anthropic.

Perguntas frequentes

Em que é que a deteção de destilação do Claude Fable 5 difere das disposições anti-destilação nos termos de utilização anteriores?

As exigências anti-destilação da Anthropic anteriores incidiam principalmente nos termos de serviço, baseando-se em obrigações de natureza legal. A abordagem do Claude Fable 5 integra um classificador no próprio modelo, bloqueando diretamente, a nível técnico, tentativas de destilação detetadas e fazendo rebaixamento automático, sem necessidade de aguardar a intervenção de procedimentos legais.

O que é a destilação de modelos e por que razão é difícil definir, de forma precisa em nível técnico, a destilação legítima e a não autorizada?

A destilação de modelos (Knowledge Distillation) consiste em usar as saídas de um modelo grande para treinar um modelo mais pequeno, permitindo que este aprenda as capacidades do primeiro. A destilação legítima (utilizando saídas ao abrigo de autorização) e a destilação não autorizada (consultas sistemáticas e em grande escala para extrair dados de treino) são quase idênticas em termos de método operacional técnico, tornando a classificação automática pelo classificador de IA difícil de avaliar.

Que impactos conhecidos é que este mecanismo tem no progresso de treino de laboratórios de IA chineses como a DeepSeek?

A Anthropic não divulgou dados quantitativos específicos sobre o impacto deste mecanismo em laboratórios concretos. A análise do investigador externo Nathan Lambert indica que os laboratórios chineses dispõem de modelos de código aberto da Meta e da Google, de infraestruturas próprias de aprendizagem por reforço e de pipelines para geração de dados sintéticos, pelo que a proteção contra destilação é um fator de interferência e não uma barreira fundamental. A avaliação de Lambert é uma análise externa e independente, não uma posição oficial da Anthropic.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário