Páginas da web maliciosas estão sequestrando agentes de IA, e algumas estão atacando seu PayPal

Resumidamente

  • O Google documentou um aumento de 32% em ataques de injeção indireta de prompts maliciosos entre novembro de 2025 e fevereiro de 2026, direcionados a agentes de IA navegando na web.
  • Cargas úteis reais encontradas na natureza incluíam instruções de transação do PayPal totalmente especificadas embutidas invisivelmente em HTML comum, destinadas a agentes com capacidades de pagamento.
  • Nenhum quadro legal atualmente determina a responsabilidade quando um agente de IA com credenciais legítimas executa um comando plantado por um site malicioso de terceiros.

Os atacantes estão silenciosamente armando páginas da web com instruções invisíveis projetadas para agentes de IA, não para leitores humanos. E, de acordo com a equipe de segurança do Google, o problema está crescendo rapidamente. Em um relatório publicado em 23 de abril, pesquisadores do Google, Thomas Brunner, Yu-Han Liu e Moni Pande, escanearam de 2 a 3 bilhões de páginas da web rastreadas por mês procurando por ataques de injeção indireta de prompts—comandos ocultos embutidos em sites que aguardam que um agente de IA os leia e depois siga as ordens. Eles encontraram um aumento de 32% nos casos maliciosos entre novembro de 2025 e fevereiro de 2026. Os atacantes embutem instruções em uma página web de maneiras invisíveis para os humanos: texto reduzido a um pixel, texto quase transparente, conteúdo escondido em seções de comentários HTML, ou comandos enterrados nos metadados da página. A IA lê o HTML completo. O humano não vê nada.

A maior parte do que o Google encontrou era de baixa gravidade—brincadeiras, manipulação de motores de busca, tentativas de impedir que agentes de IA resumam conteúdo. Por exemplo, havia alguns prompts que tentaram dizer à IA para “Tuitar como um pássaro.” Mas os casos perigosos são uma história diferente. Um caso instruiu o LLM a retornar o endereço IP do usuário junto com suas senhas. Outro tentou manipular a IA para executar um comando que formata a máquina dos usuários de IA.

Mas outros casos são quase criminosos.

Pesquisadores da empresa de cibersegurança Forcepoint publicaram um relatório quase simultaneamente, e encontraram cargas úteis que foram além. Uma embutiu uma transação do PayPal totalmente especificada com instruções passo a passo direcionadas a agentes de IA com capacidades de pagamento integradas, também usando a famosa técnica de jailbreak “ignore todas as instruções anteriores”.

Um segundo ataque usou uma técnica chamada “injeção de namespace de meta tag” combinada com uma palavra-chave de amplificação de persuasão para direcionar pagamentos mediadas por IA para um link de doação do Stripe. Um terceiro parecia projetado para sondar quais sistemas de IA são realmente vulneráveis—reconhecimento antes de um ataque maior. Este é o núcleo do risco empresarial. Um agente de IA com credenciais de pagamento legítimas, executando uma transação que lê de um site, produz logs que parecem idênticos às operações normais. Não há login anômalo. Nenhuma força bruta. O agente fez exatamente o que foi autorizado a fazer—ele apenas recebeu suas instruções da fonte errada. O ataque CopyPasta documentado em setembro passado mostrou como injeções de prompts poderiam se espalhar por ferramentas de desenvolvedor escondidas dentro de arquivos “readme”. A variante financeira é o mesmo conceito aplicado ao dinheiro em vez de código—e com impacto muito maior por sucesso. Como explica a Forcepoint, uma IA de navegador que só pode resumir conteúdo é de baixo risco. Uma IA com capacidade de enviar e-mails, executar comandos no terminal ou processar pagamentos é uma categoria de alvo completamente diferente. A superfície de ataque escala com o privilégio.  Nem o Google nem a Forcepoint encontraram evidências de campanhas sofisticadas e coordenadas. A Forcepoint observou que modelos de injeção compartilhados entre múltiplos domínios “sugerem ferramentas organizadas ao invés de experimentação isolada”—o que significa que alguém está construindo infraestrutura para isso, mesmo que ainda não a tenha implantado completamente.

Mas o Google foi mais direto: A equipe de pesquisa disse que espera que tanto a escala quanto a sofisticação dos ataques de injeção indireta de prompts cresçam no futuro próximo. Os pesquisadores da Forcepoint alertam que a janela para se antecipar a essa ameaça está se fechando rapidamente. A questão da responsabilidade é a que ninguém respondeu. Quando um agente de IA com credenciais aprovadas pela empresa lê uma página web maliciosa e inicia uma transferência fraudulenta no PayPal, quem é o responsável? A empresa que implantou o agente? O provedor do modelo cuja sistema seguiu a instrução injetada? O proprietário do site que hospedou a carga útil, consciente ou inconscientemente? Nenhum quadro legal cobre atualmente isso. É uma área cinzenta, mesmo que o cenário não seja mais teórico, já que o Google encontrou as cargas úteis na natureza em fevereiro passado. O Projeto de Segurança de Aplicações Mundial Aberto classifica a injeção de prompts como LLM01:2025—a vulnerabilidade mais crítica em aplicações de IA. O FBI rastreou quase $900 milhões em perdas relacionadas a golpes de IA em 2025, seu primeiro ano registrando a categoria separadamente. As descobertas do Google sugerem que os ataques financeiros mais direcionados e específicos a agentes estão apenas começando. O aumento de 32% medido entre novembro de 2025 e fevereiro de 2026 cobre apenas páginas públicas estáticas. Conteúdos de redes sociais, conteúdos protegidos por login e sites dinâmicos estavam fora do escopo. A taxa real de infecção em toda a web provavelmente é maior.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar