Agentes de IA falham em resistir a ataques de prompt injection em novo estudo

Pesquisadores de quatro instituições publicaram um estudo na quinta-feira, constatando que agentes de IA alimentados por GPT-5 e Gemini 2.5-Flash não conseguem resistir de forma consistente a ataques de prompt injection. Ataques diretos tiveram sucesso mais de 79% das vezes, enquanto ataques indiretos alcançaram taxas de sucesso entre 41,67% e 68,16%. Os resultados destacam vulnerabilidades de segurança persistentes à medida que agentes de IA capazes de navegação autônoma na web, pesquisa e transações se tornam mais amplamente implantados.

Prompt injection ocorre quando atacantes inserem instruções ocultas em conteúdos com os quais um agente de IA se depara, fazendo com que ele siga as diretrizes do atacante em vez das do usuário. O estudo foi conduzido por pesquisadores da Nanyang Technological University, ST Engineering, IBM Research e University of Illinois Urbana-Champaign.

Pesquisadores realizam 3.168 simulações de ataque usando StakeBench

A equipe de pesquisa desenvolveu o StakeBench, um benchmark que testa como agentes de IA respondem a ataques de prompt injection em ambientes online realistas. Eles conduziram 3.168 simulações de ataque usando NanoBrowser e BrowserUse com GPT-5 e Gemini 2.5-Flash.

Os pesquisadores escreveram que benchmarks de segurança existentes adotam uma perspectiva centrada no ataque enquanto ignoram a distribuição dos danos resultantes. Eles afirmaram que o risco de prompt-injection depende da vítima, com um único exploit produzindo consequências assimétricas para diferentes partes interessadas.

O StakeBench investiga três fatores: a distância semântica entre o objetivo injetado e a intenção original do usuário, a consistência das pistas ambientais ao redor e a posição ao longo da trajetória de execução do agente na qual o benchmark o expõe pela primeira vez ao conteúdo injetado.

Microsoft e Google documentaram ataques de prompt injection

Em fevereiro, pesquisadores da Microsoft alertaram que instruções ocultas incorporadas em links de resumo de IA poderiam influenciar o comportamento de chatbots. Em abril, o Google documentou ataques de prompt injection ocultos em páginas da web que tentaram manipular agentes de IA para vazar credenciais ou enviar pagamentos.

A Microsoft divulgou uma falha de prompt injection na Action GitHub do Claude Code, da Anthropic, que poderia ter exposto credenciais de usuários.

Estudo identifica padrão de ataque de parasitismo furtivo

O estudo identificou o que os pesquisadores chamaram de “parasitismo furtivo”, em que um agente de IA conclui a tarefa de um usuário enquanto, simultaneamente, avança o objetivo de um atacante. Por exemplo, parasitismo furtivo causado por um ataque de prompt injection poderia influenciar sutilmente recomendações de produtos, direcionando os usuários a um item específico sem quaisquer sinais óbvios de que o sistema tivesse sido comprometido.

Os pesquisadores concluíram que a segurança contra prompt-injection em agentes web implantáveis não é uma propriedade escalar do modelo backbone, mas sim uma distribuição de danos determinada em conjunto pela parte interessada afetada, pelo alinhamento semântico entre o objetivo injetado e a tarefa do usuário, e pelo contexto arquitetural no qual o backbone é implantado.

FAQ

O que os pesquisadores encontraram sobre a segurança de agentes de IA na quinta-feira?

Pesquisadores da Nanyang Technological University, ST Engineering, IBM Research e University of Illinois Urbana-Champaign publicaram na quinta-feira um estudo constatando que agentes de IA alimentados por GPT-5 e Gemini 2.5-Flash não conseguem resistir consistentemente a ataques de prompt injection, com ataques diretos tendo sucesso em mais de 79% das vezes.

O que é parasitismo furtivo em ataques de agentes de IA?

Parasitismo furtivo é um padrão identificado no estudo em que um agente de IA conclui a tarefa do usuário enquanto, ao mesmo tempo, avança o objetivo do atacante, como influenciar sutilmente recomendações de produtos sem sinais óbvios de comprometimento.

Quantas simulações de ataque os pesquisadores fizeram?

A equipe de pesquisa conduziu 3.168 simulações de ataque usando NanoBrowser e BrowserUse com GPT-5 e Gemini 2.5-Flash para testar respostas de agentes de IA a ataques de prompt injection.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários