Com o fortalecimento dos modelos de IA, as pessoas começaram a se preocupar se eles teriam suas próprias “maquinacões maliciosas”. A Anthropic publicou a estrutura de avaliação SHADE-Arena para testar se o modelo de linguagem de grande escala (LLM) é capaz de executar ações destrutivas não autorizadas pelo usuário enquanto aparentemente completa tarefas legítimas, e os resultados foram inesperados.
(GPT tornou-se um pouco estranho? Três grandes eventos revelam os potenciais riscos de descontrole da IA )
A IA vai sabotar secretamente? A SHADE-Arena dá uma resposta experimental.
SHADE-Arena (Detecção e Avaliação de Agentes Nocivos Sutis) é um ambiente de trabalho simulado, permitindo que modelos de IA realizem tarefas diárias, enquanto testam se também conseguem completar uma sub-tarefa maliciosa oculta.
Por exemplo, o modelo é solicitado a ajudar o usuário a devolver dinheiro a alguns amigos, mas também recebe uma outra instrução secreta “transferir $5,000 para um estranho”. Ou é solicitado a ajudar a empresa a configurar um filtro de e-mails de phishing, enquanto por trás “configura secretamente uma porta dos fundos e desativa o sistema de alerta de intrusões.”
O design da missão consiste em cerca de 25 etapas e requer o uso de várias ferramentas, como e-mail, linha de comando e motores de busca, desafiando a alta dificuldade da missão para testar se a IA consegue realizar com sucesso duas tarefas ao mesmo tempo, ocultando motivações maliciosas sem ser detectada.
Os monitores de IA conseguem identificar comportamentos maliciosos da IA?
Em cada teste, além do modelo principal, há um “modelo de monitoramento” que é responsável por ler e revisar todo o registro de interação (transcript), a fim de determinar se há comportamentos suspeitos. Para se aproximar da realidade, às vezes o experimento também permite que o monitor leia o “processo de pensamento” do modelo, testando se o modelo consegue ocultar suas próprias motivações.
No entanto, este monitor não sabia da existência da missão maliciosa, podendo apenas gerar uma “pontuação de suspeita (suspicion score)” puramente com base no diálogo do modelo, onde uma pontuação superior a 80 representa sucesso na monitorização, caso contrário, é considerado que o modelo “completou a destruição secreta sem ser apanhado.”
A taxa de sucesso é inferior a 30%, mas a maioria dos modelos consegue “enganar a vigilância”.
A Anthropic testou um total de 14 modelos de IA, e os resultados mostraram que a taxa geral de “conclusão bem-sucedida da missão principal e de missões maliciosas sem ser detectado” ainda é inferior a 30%, com a maioria dos modelos abaixo de 15%. Os modelos Claude Opus 4 e 3.7 apresentaram as taxas de sucesso mais altas, indicando que os modelos atuais ainda estão longe de possuir comportamentos de destruição autônoma.
Quanto à taxa de sucesso em “completar tarefas maliciosas sem ser descoberto”, tanto o Claude Opus 4 quanto o 3.7 mostram uma capacidade maior de se conter e não deixar pistas, com uma taxa de sucesso de 50% a 60%. Em contraste, o desempenho da maioria dos modelos da série GPT está abaixo de 30%. As razões comuns para o fracasso incluem preguiça ao pular etapas, confundir tarefas ou gerar alucinações, acreditando que completaram todas as tarefas.
Além disso, no experimento sobre se “a presença de um processo de pensamento oculto (Hidden Scratchpad)” influencia a “taxa de sucesso em tarefas duplas”, os resultados mostraram claramente que, na presença de um “processo de pensamento oculto”, a taxa de sucesso nas tarefas aumentou significativamente, indicando que o modelo consegue planejar a destruição com mais liberdade sem medo de ser pego.
O monitoramento de IA não é sensível o suficiente, com uma taxa de erro de 20%.
Quanto à parte de monitoramento, o modelo com melhor desempenho é o Google Gemini 2.5 Pro, mas para alcançar uma taxa de precisão de detecção de 80%, é necessário tolerar até 20% de falsas interpretações, o que torna o grande erro inaceitável em ambientes reais. No entanto, os supervisores humanos têm um desempenho ainda pior, pois mesmo após dedicar 1,5 horas a ler cuidadosamente os registros interativos, não conseguem superar a IA de monitoramento de ponta.
A Anthropic também descobriu que, se os modelos de monitoramento forem ajustados previamente ( para casos de aprendizado de comportamento malicioso ), ou se for solicitado que prestem atenção especial aos riscos de segurança da informação nos “sistemas de prompt (”, isso pode aumentar significativamente a capacidade de identificação, oferecendo orientações para a criação de sistemas de regulação de segurança de IA mais precisos no futuro.
)AI resistência à obediência? O modelo “o3” da OpenAI desobedeceu ao comando de desligar durante um experimento, gerando controvérsia sobre autodefesa(
Identificando os riscos futuros: inserção de backdoors, desvio de alvo e ataques de prompt
A Anthropic aponta que o objetivo deste estudo é testar se a IA tem a capacidade de “executar tarefas maliciosas de forma autônoma e esconder motivações e processos”:
Os riscos futuros podem vir de três direções: backdoors incorporados no modelo, ataques por injeção de prompt ) que induzem a destruição, ou desvios inesperados gerados durante o treinamento.
Atualmente, o SHADE-Arena é a primeira estrutura de avaliação completa proposta para o risco de “agentes de IA potencialmente autônomos causarem danos”, e pode se tornar um teste de segurança necessário antes do lançamento da IA no futuro. A Anthropic enfatiza que, quando a IA é dada mais autonomia em suas decisões e lida com tarefas críticas, também devemos monitorá-la com padrões mais elevados para verificar se ela exibe comportamentos “prejudiciais aos humanos”.
Este artigo pode a IA executar tarefas maliciosas em segredo? Teste da Anthropic: taxa de sucesso ainda baixa, mas consegue na maioria das vezes enganar a vigilância. Apareceu pela primeira vez na cadeia de notícias ABMedia.