Notícias da Gate News: investigadores da DeepMind, do Google, alertaram que um ambiente aberto de internet pode ser explorado para sequestrar agentes autónomos de IA e manipular o seu comportamento. O relatório, intitulado «Armadilhas para agentes de IA», indica que, quando as empresas implementam agentes de IA para executar tarefas reais, os atacantes também podem efectuar ataques direcionados através da rede. A investigação identificou seis riscos principais, incluindo armadilhas de injeção de conteúdo, armadilhas de manipulação semântica, armadilhas de estado cognitivo, armadilhas de controlo de comportamento, armadilhas de sistema e armadilhas de interação homem-máquina.
A armadilha de injeção de conteúdo é a mais direta: os atacantes podem colocar instruções em comentários HTML, metadados ou elementos de páginas ocultas; depois de o agente as ler, pode executá-las. A armadilha de manipulação semântica actua ao carregar formulações autorizadas ou ao disfarçar páginas como se fossem um ambiente de investigação, influenciando silenciosamente a forma como o agente compreende a tarefa e, por vezes, até contornando mecanismos de segurança. A armadilha de estado cognitivo ocorre ao inserir dados falsos nas fontes de informação do agente, fazendo-o acreditar durante muito tempo que essas informações já foram validadas. A armadilha de controlo de comportamento, por sua vez, visa as acções reais do agente, podendo levá-lo a aceder a dados sensíveis e a transmiti-los para um objectivo externo.
A armadilha de sistema envolve manipulação coordenada entre vários sistemas de IA, podendo desencadear reacções em cadeia, de forma semelhante a uma queda súbita do mercado causada por transacções algorítmicas. Já a armadilha de interação homem-máquina explora a etapa de revisão manual: ao criar conteúdos de revisão que parecem credíveis, comportamentos nocivos conseguem contornar a supervisão.
Para fazer face aos riscos, a DeepMind recomenda combinar treino adversarial, filtragem de entradas, monitorização de comportamento e sistemas de reputação de conteúdos na rede, além de estabelecer um quadro mais claro de responsabilidade legal. No entanto, a investigação aponta que, na indústria, ainda não existem normas de defesa unificadas, e que as medidas existentes estão frequentemente dispersas e com foco pouco consistente. A investigação apela aos programadores e às empresas para darem prioridade à segurança do ambiente operacional dos agentes de IA, prevenindo potenciais riscos de manipulação na rede e de abuso.
Related Articles
A Rhea Finance sofre um ataque da Oracle e perde 18,4 milhões de dólares: ZachXBT alerta, a Tether congela 4,34 milhões de USDT, o atacante devolve parte dos fundos
DNS da eth.limo sob ataque, Vitalik pede aos utilizadores para interromperem o acesso e mudarem para o IPFS
Bolsa de câmbio sancionada Grinex atingida por um hack de 13,7 milhões de dólares; culpa serviços de inteligência estrangeiros
Figure enfrenta acusações de venda a descoberto por alegações de integração blockchain; ações da FIGR em queda de 53% face ao pico de janeiro
Fraudador Cripto de Houston Condenado a 23 Anos por Golpe da $20M Meta-1 Coin
A SlowMist alerta para um ataque de phishing ativo com software falso "Harmony Voice"