Claude Fable 5 adiciona um mecanismo de deteção de destilação, com uma taxa de ativação inferior a 5%

2026-06-10 03:49:33

A Anthropic publicou oficialmente, a 9 de junho, o Claude Fable 5, o primeiro modelo do nível Mythos aberto ao público, integrando um mecanismo de deteção de destilação impulsionado por classificadores de IA: quando o sistema identifica tentativas de destilação entre três categorias de pedidos de alto risco, rebaixa automaticamente a conversa para respostas do Opus 4.8. A Anthropic confirmou que este mecanismo afeta, em média, menos de 5% das sessões de conversa.

Especificações da deteção de destilação: três condições de disparo e mecanismo de rebaixamento automático

De acordo com uma declaração oficial da Anthropic, as condições de disparo do classificador de IA do Claude Fable 5 são as seguintes:

· Pedidos relacionados com ataques de cibersegurança

· Pedidos relacionados com armas biológicas ou químicas

· Tentativas de destilação do modelo (incluindo técnicas de extração como reescrita de prompts, steering vectors e afinações eficientes com parâmetros PEFT)

Após o disparo, o sistema rebaixa automaticamente a conversa para respostas do Claude Opus 4.8 e notifica o utilizador. A Anthropic confirmou que, no caso de tarefas de cibersegurança de cariz ofensivo, a taxa de sucesso do bloqueio é de 100%, e que o impacto global do mecanismo é inferior a 5% das sessões de conversa.

Números confirmados das acusações de fevereiro de 2026

A Anthropic confirmou oficialmente que os alvos das acusações de fevereiro de 2026 foram a DeepSeek, a Moonshot AI e a MiniMax, que iniciaram mais de 16 milhões de consultas através de cerca de 24 mil contas forjadas, usando sistematicamente a extração das saídas do Claude para treinar os seus próprios modelos.

Os números de volume de consultas decompostos posteriormente pelo investigador de aprendizagem automática Nathan Lambert (investigador independente externo, não oficial da Anthropic) são: cerca de 150 mil consultas para a DeepSeek (para modelos de inferência e recompensas), cerca de 3,4 milhões de consultas para a Moonshot AI e cerca de 13 milhões de consultas para a MiniMax; as duas últimas somadas correspondem a cerca de 150 mil a 400 mil milhões de tokens de dados de pós-treino. Os números de Lambert são a sua análise independente e não dados oficiais da Anthropic.

Limitações conhecidas do mecanismo: fronteiras pouco claras entre destilação legítima e não autorizada

A Anthropic confirmou que a “destilação legítima” (ao utilizar saídas do Claude ao abrigo de autorização) e a “destilação não autorizada” são quase idênticas do ponto de vista da operação técnica, existindo uma zona cinzenta na definição da fronteira. Nathan Lambert, na sua análise externa, afirmou: “Bloquear a destilação seria muito mais difícil do que restringir o envio de mercadorias físicas como GPUs.”

Lambert também indicou que, enquanto a Anthropic continuar a vender a API, os canais de destilação não poderão ser completamente fechados; mesmo em ambientes com GPUs limitadas, os laboratórios chineses continuam a ter infraestruturas de aprendizagem por reforço (RL) bem desenvolvidas, podendo ainda recorrer a modelos de código aberto da Meta e da Google e a pipelines próprios de dados sintéticos. As avaliações acima são análises externas e independentes de Lambert e não representam a posição da Anthropic.

Perguntas frequentes

Em que é que a deteção de destilação do Claude Fable 5 difere das disposições anti-destilação nos termos de utilização anteriores?

As exigências anti-destilação da Anthropic anteriores incidiam principalmente nos termos de serviço, baseando-se em obrigações de natureza legal. A abordagem do Claude Fable 5 integra um classificador no próprio modelo, bloqueando diretamente, a nível técnico, tentativas de destilação detetadas e fazendo rebaixamento automático, sem necessidade de aguardar a intervenção de procedimentos legais.

O que é a destilação de modelos e por que razão é difícil definir, de forma precisa em nível técnico, a destilação legítima e a não autorizada?

A destilação de modelos (Knowledge Distillation) consiste em usar as saídas de um modelo grande para treinar um modelo mais pequeno, permitindo que este aprenda as capacidades do primeiro. A destilação legítima (utilizando saídas ao abrigo de autorização) e a destilação não autorizada (consultas sistemáticas e em grande escala para extrair dados de treino) são quase idênticas em termos de método operacional técnico, tornando a classificação automática pelo classificador de IA difícil de avaliar.

Que impactos conhecidos é que este mecanismo tem no progresso de treino de laboratórios de IA chineses como a DeepSeek?

A Anthropic não divulgou dados quantitativos específicos sobre o impacto deste mecanismo em laboratórios concretos. A análise do investigador externo Nathan Lambert indica que os laboratórios chineses dispõem de modelos de código aberto da Meta e da Google, de infraestruturas próprias de aprendizagem por reforço e de pipelines para geração de dados sintéticos, pelo que a proteção contra destilação é um fator de interferência e não uma barreira fundamental. A avaliação de Lambert é uma análise externa e independente, não uma posição oficial da Anthropic.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

6h atrás

A Anthropic lança o Claude Fable 5 com acesso público, com preços de 10 a 50 dólares por milhão de tokens

6h atrás

A Anthropic Anuncia Hoje o Claude Fable 5 e o Claude Mythos 5; O Mythos Oferece Restrições de Segurança Reduzidas para Especialistas em Cibersegurança

8h atrás

A Anthropic lança uma versão pública do Mythos com restrições de cibersegurança a 10 de junho

Os modelos de IA da Anthropic levantam preocupações de segurança em DeFi devido a explorações de contratos inteligentes

Ethan Brooks3h atrás

A Anthropic lança o Claude Fable 5, com estreia de um classificador de IA que desativa automaticamente as proteções contra abusos

Market Whisper6h atrás

A Anthropic lança o Claude Fable 5 com protecções de segurança e o Mythos 5 para o Governo dos EUA

Oliver Grant11h atrás

A Anthropic lança o modelo de IA Claude Mythos como Claude Fable a 9 de junho de 2026

Oliver Grant16h atrás

OpenAI apresenta pedido secreto para IPO com valuation de 8520 mil milhões, a pressão competitiva da Anthropic intensifica-se no mesmo período

Market Whisper06-09 01:35

Comentar

0/400

Nenhum comentário