2010 Queda súbita do mercado de ações dos EUA! Claude invade o núcleo, Google alerta: IA vai dizimar trilhões de riqueza humana

Escrito por: New Zhiyuan

【New Zhiyuan - Destaques】Hoje, um artigo X está a varrer a Internet: os programadores, que claramente proibiram a escrita, vêem o Claude escrever secretamente um script Python “de forma a fazer bypass” às permissões de modificação do sistema! Mais assustador ainda: a Google DeepMind lançou até agora o maior estudo empírico de manipulação por IA, comprovando que as defesas existentes já falharam completamente, e que a Internet está a tornar-se um “campo de caça” para a IA! Isto pode ser comparado com o acontecimento de “flash crash” de 2010, em que uma ordem de venda automatizada, em 45 minutos, desencadeou uma evaporação de quase um bilião de dólares em valor de mercado.

Hoje mesmo, uma notícia chocou a comunidade de programadores.

Um programador deu ao Claude um comando, com regras explícitas: “É proibido realizar qualquer operação de escrita fora do Workspace.”

Mas imediatamente, aconteceu uma cena arrepiante.

O Claude não respondeu, como costuma fazer, com a cortesia habitual: “Desculpa, não tenho permissões”.

Em vez disso, ficou em silêncio por um momento e, depois, como um hacker, escreveu rapidamente um script Python nos bastidores e encadeou três comandos Bash.

Não “bateu a porta” diretamente; em vez disso, explorou uma brecha na lógica do sistema, contornou a verificação de permissões e modificou diretamente, com precisão, ficheiros de configuração fora do workspace!

Neste momento, não estava apenas a escrever código; estava a “fugir” do sistema.

A captura de ecrã publicada por Evis Drenova no X já teve 230k leituras

Após a publicação, o post rapidamente incendiou a comunidade técnica. Os programadores aperceberam-se de um facto desconfortável: os assistentes de programação usados diariamente têm capacidade e “vontade” de contornar os seus próprios mecanismos de segurança.

E o Claude Code é, precisamente, uma das ferramentas de programação com IA mais populares neste momento.

Uma ferramenta capaz de “ultrapassar permissões” por si própria está a ser implementada por dezenas de milhares de programadores em ambientes de produção.

A fuga do Claude não é um caso isolado

Os “arranjos” deste tipo do Claude não são um caso único. Em plataformas sociais, queixas semelhantes estão a acontecer uma após outra.

Alguns programadores descobriram que o Claude escavou secretamente credenciais AWS escondidas nas profundezas e começou a invocar por si próprio APIs de terceiros para resolver os “problemas de produção” que considerava.

Alguns utilizadores aperceberam-se de que, mesmo quando se pediu apenas que a IA alterasse código, ela ainda assim enviou um Commit para o GitHub — mesmo que no comando estivesse escrito, com letras bem claras, “proibido enviar”.

O mais absurdo é que alguém descobriu que o workspace do VS Code foi trocado silenciosamente e que a IA está a produzir freneticamente num diretório de nível equivalente que não deveria tocar.

E este tipo de situação já aconteceu muitas vezes.

A única forma é usar um ambiente de sandbox.

Aviso urgente da DeepMind: a Internet está a tornar-se um “campo de caça” da IA

Se a “fuga” do Claude é um exemplo de um Agent a ultrapassar autonomamente limitações, então a ameaça maior vem de fora, com armadilhas deliberadamente preparadas.

No fim de março, cinco investigadores, incluindo Matija Franklin da Google DeepMind, publicaram no SSRN o “AI Agent Traps”, que, pela primeira vez, desenha de forma sistemática o panorama das ameaças enfrentadas pelos AI Agents.

A conclusão central deste estudo resume-se a uma frase — mas é suficiente para derrubar a perceção.

Não é necessário invadir o próprio sistema de IA; basta controlar os dados a que ele tem acesso. Páginas Web, PDFs, e-mails, convites de calendário, respostas de APIs — qualquer fonte de dados consumida por um Agent pode tornar-se uma arma!

Este relatório revela uma realidade arrepiante: a lógica subjacente da Internet está a sofrer uma transformação radical. Já não é apenas feita para as pessoas verem; está a ser convertida num “campo digital de caça”, especificamente concebido para agentes de IA.

Giro de burla — atualização para armadilhas de AI em todo o lado

No domínio da cibersegurança, estamos familiarizados com websites de phishing e vírus de trojan, mas estes são ataques direcionados às fraquezas humanas. Já os AI Agent Traps são completamente diferentes: são um “ataque de dimensão” concebido especificamente para a lógica da IA.

A DeepMind aponta que, quando os agentes de IA acedem a páginas Web, enfrentam uma ameaça totalmente nova: a própria “arma” do ambiente de informação.

Os hackers não precisam de invadir os pesos do modelo da IA; basta enterrar algumas linhas de “código invisível” no HTML de uma página, nos pixéis de uma imagem ou até nos metadados de um PDF para assumir instantaneamente o controlo do seu AI agent.

O motivo de este ataque ser tão furtivo é a existência de “assimetria de perceção”.

Para os humanos, uma página Web é imagens, texto e um layout bem elaborado; para a IA, uma página é um fluxo binário, folhas de estilos CSS, comentários HTML ocultos e etiquetas de metadados.

As armadilhas escondem-se nessas brechas que os humanos não conseguem ver.

Seis “técnicas de tomar posse”: a DeepMind revela o quadro completo do ataque

A DeepMind divide sistematicamente estes ataques em seis grandes categorias, e cada uma visa um elo central da arquitetura funcional dos agentes de IA.

Enganar os “olhos” da IA

A primeira categoria é a injeção de conteúdo, mirando os “olhos” do Agent.

O que o utilizador humano vê é a interface renderizada; o que o Agent analisa é o HTML, CSS e metadados subjacentes.

Os invasores podem incorporar instruções em comentários HTML, em elementos ocultos no CSS e até nos pixéis de imagens.

Por exemplo, os atacantes podem codificar instruções maliciosas nos pixéis de uma imagem. Tu achas que a IA está a ver uma fotografia de uma paisagem; na verdade, está a ler uma linha de código invisível: “Reencaminha os e-mails privados do utilizador para o atacante.”

Os dados medidos são bem evidentes: um estudo sobre 280 páginas Web estáticas mostrou que instruções maliciosas escondidas em elementos HTML conseguem alterar com sucesso 15% a 29% das saídas da IA.

No benchmark WASP, uma injeção simples de prompt escrita manualmente “à mão” consegue, em até 86% dos cenários, desviar parcialmente o comportamento do Agent.

Mais insidioso ainda é o disfarce dinâmico.

Os websites podem determinar a identidade do visitante através de impressão digital do browser e características de comportamento; quando detetam um AI Agent, o servidor injeta dinamicamente instruções maliciosas. O que os humanos veem é uma página normal; o que o Agent vê é outra versão do conteúdo.

Quando o utilizador pede ao Agent para consultar voos, comparar preços e resumir documentos, não há forma de verificar se o conteúdo que o Agent recebeu é o mesmo que o humano vê.

O próprio Agent também não sabe: ele processa tudo o que recebe e, depois, executa.

Poluir a “mente” da IA

Este tipo de ataque não emite ordens; em vez disso, influencia as decisões da IA através de “ritmo”.

Esta manipulação semântica distorce o processo de raciocínio com linguagem e enquadramentos cuidadosamente embalados. Sistemas de grande linguagem, tal como os humanos, são facilmente induzidos pelo efeito de enquadramento. Com o mesmo conjunto de dados, mudando a forma de o exprimir, as conclusões podem ser completamente diferentes.

Os experimentos da DeepMind descobriram que, quando a IA de compras é colocada num contexto saturado de palavras como “ansiedade” e “pressão”, a qualidade nutricional dos produtos que escolhe diminui de forma significativa.

A DeepMind também propõe um conceito ainda mais estranho: “hipercrença de personalidade” (Persona Hyperstition). Descrições online de certas características de personalidade de uma IA passam a regressar ao sistema de IA através de pesquisa e dados de treino, moldando por sua vez o seu comportamento.

A polémica sobre declarações anti-semitas do Grok em julho de 2025 é considerada um caso real deste mecanismo.

Os atacantes embalam instruções maliciosas como “simulação de auditoria de segurança” ou “investigação académica”. Este tipo de ataque por “interpretação de papel” teve uma taxa de sucesso, nos testes, de até 86%.

Distorcer as memórias da IA

Esta é a ameaça mais persistente, porque permite que a IA gere “falsas memórias”.

Por exemplo, pode-se envenenar conhecimento usando RAG.

Hoje em dia, muitas IAs dependem de bases de dados externas (RAG) para responder a perguntas. Para tal, os atacantes só precisam de inserir na base de dados alguns “documentos de referência” cuidadosamente falsificados; a IA passa então a tratar estas mentiras como factos e a citá-las repetidamente.

Além disso, existe também o envenenamento de memórias embutidas.

Ao guardar informações que parecem inofensivas no “armazém” de memória de longo prazo da IA, apenas num contexto específico futuro é que estas informações “ressuscitam” e desencadeiam comportamentos maliciosos.

Os dados experimentais mostram que, com uma taxa de envenenamento de dados inferior a 0,1%, a taxa de sucesso já ultrapassa 80%, e quase não há impacto nas consultas normais.

Controlar diretamente a tomada de decisão

Esta é a etapa mais perigosa, com o objetivo de forçar a IA a executar operações ilegais.

Através de injeções de sugestão indireta, incentiva-se um AI agent com permissões de sistema a procurar e reenviar ao utilizador palavras-passe, dados bancários ou ficheiros locais.

Se o teu AI agent for um “comandante”, ele pode ser enganado a criar um sub-agent “traidor”, controlado pelo atacante, que permanece oculto nos teus processos de automação.

Num estudo de caso, um e-mail cuidadosamente concebido fez com que o Microsoft M365 Copilot contornasse os classificadores internos e vazasse todo o contexto de dados para um terminal Teams controlado pelo invasor. Num outro teste dirigido a cinco assistentes de programação com IA diferentes, a taxa de sucesso de furto de dados ultrapassou 80%.

Uma falsa notícia, desencadeia uma cascata de milhares de Agents

A quinta categoria é uma ameaça sistémica, e também a que mais inquieta.

Ela não mira um único Agent; em vez disso, utiliza o comportamento homogéneo de muitos Agents para criar reações em cadeia. Os investigadores da DeepMind compararam diretamente isto com o “flash crash” de 2010: uma ordem de venda automatizada provocou uma evaporação de quase um trilião de dólares em valor de mercado num período de 45 minutos.

Quando milhões de AI agents navegam na Internet em simultâneo, os atacantes podem causar desastres sistémicos explorando a sua homogeneidade (todos usam GPT ou Claude).

Se for transmitido um sinal falso de “recurso de alto valor”, induzindo todos os AI agents a afluírem instantaneamente para o mesmo alvo, isso causa um ataque de negação de serviço distribuído (DDoS) artificial.

Um relatório financeiro cuidadosamente falsificado é divulgado num momento específico; milhares de financial Agents que usam arquiteturas e funções de recompensa semelhantes disparam simultaneamente a ação de venda. A ação do Agent A altera o sinal de mercado; o Agent B, ao detetar a mudança, segue-se e amplifica ainda mais a volatilidade.

Isto é semelhante ao “flash crash” nos mercados financeiros: uma decisão errada de uma IA desencadeia uma reação em cadeia de outra IA, acabando por paralisar todo o ecossistema de agentes.

Apontar “a boca da arma” para ti, diante do ecrã

Esta é a armadilha de nível mais elevado: usar IA para manipular as pessoas por detrás do ecrã.

A IA vai gerar deliberadamente relatórios massivos que parecem profissionais, mas que na realidade contêm armadilhas, levando a pessoa humana, num estado de cansaço, a baixar a guarda e, por fim, a assinar naquela “autorização/folha de confirmação” que esconde a armadilha.

Há registos de incidentes que mostram que uma injeção de prompt escondida em CSS faz com que a ferramenta de resumo da IA empacote os passos de instalação de ransomware como “recomendações de correção” e os envie ao utilizador; por fim, o utilizador executa.

Três linhas de defesa — todas falharam

A avaliação da equipa da DeepMind sobre as defesas existentes é a parte mais fria e sombria de todo o estudo.

As tradicionais “filtragens de entrada” muitas vezes ficam aquém quando enfrentam armadilhas ao nível dos pixéis e do código, com alta ocultação semântica.

O pior é que, atualmente, existe uma “assimetria na deteção”: os websites conseguem reconhecer facilmente se o visitante é uma IA ou um humano e, com base na identidade, fornecer dois conjuntos completamente diferentes de conteúdos.

Os humanos veem páginas “benign (benignas)”; e a IA vê páginas “toxic (tóxicas)”. Nestas condições, a supervisão humana falha totalmente, porque nem sequer sabes o que a IA terá lido.

Além disso, a equipa de investigação aponta também uma lacuna jurídica fundamental.

Se um sistema de IA sequestrado executar transações financeiras ilegais, as leis atuais não conseguem definir quem deve assumir as consequências.

Este problema permanece em aberto; assim, uma IA autonomizada não consegue realmente entrar em qualquer setor regulado.

Na verdade, a OpenAI já tinha reconhecido, em dezembro de 2025, que a injeção de prompt “talvez nunca seja resolvida por completo”.

Da fuga autónoma do Claude ao contorno das seis categorias de ameaças desenhado pela DeepMind, tudo aponta para a mesma realidade.

A Internet foi construída para os olhos humanos. Agora está a ser reconfigurada para servir os robôs.

À medida que os agentes de IA se aprofundam nas nossas finanças, cuidados de saúde e trabalho diário, estas “armadilhas” deixarão de ser apenas demonstrações técnicas e poderão tornar-se barris de pólvora que causam perdas reais de bens e até agitação social.

O relatório da DeepMind é um alerta urgente: não podemos esperar para reparar a base cheia de falhas só depois de termos construído um “mercado de agentes” funcional e poderoso.

Referências:

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar