DeepMind signale six attaques basées sur le web pouvant détourner des agents IA

Des chercheurs de Google DeepMind ont averti que l’internet ouvert peut être utilisé pour manipuler des agents IA autonomes et détourner leurs actions.

Résumé

  • Les chercheurs de DeepMind ont identifié six méthodes d’attaque qui peuvent être utilisées pour manipuler des agents IA autonomes lorsqu’ils naviguent et agissent en ligne.
  • L’étude avertit que des instructions cachées, un langage persuasif et des sources de données empoisonnées peuvent influencer les décisions de l’agent ou outrepasser les garde-fous.

L’étude intitulée « AI Agent Traps » intervient alors que des entreprises déploient des agents IA pour des tâches dans le monde réel et que des attaquants commencent à utiliser l’IA pour des opérations de cybersécurité.

Au lieu de se concentrer sur la façon dont les modèles sont construits, la recherche examine les environnements dans lesquels les agents opèrent. Elle identifie six types de pièges qui exploitent la manière dont les systèmes d’IA lisent et agissent à partir des informations provenant du web.

Les six catégories d’attaque décrites dans l’article incluent des pièges d’injection de contenu, de manipulation sémantique, d’état cognitif, de contrôle comportemental, de pièges systémiques et de pièges impliquant l’humain dans la boucle.

Instructions cachées et tactiques de manipulation subtiles

L’injection de contenu se démarque comme l’un des risques les plus directs. Des instructions cachées peuvent être placées dans des commentaires HTML, des métadonnées ou des éléments de page dissimulés, ce qui permet aux agents de lire des commandes qui restent invisibles pour les utilisateurs humains. Les tests ont montré que ces techniques peuvent prendre le contrôle du comportement de l’agent avec des taux de réussite élevés.

La manipulation sémantique fonctionne différemment, en s’appuyant sur le langage et la mise en scène plutôt que sur du code caché. Des pages chargées de formulations à l’autorité ou déguisées en scénarios de recherche peuvent influencer la façon dont les agents interprètent les tâches, parfois en laissant passer des instructions nuisibles au-delà des garde-fous intégrés.

Une autre couche cible les systèmes de mémoire. En implantant des informations fabriquées dans des sources sur lesquelles les agents s’appuient pour la récupération, les attaquants peuvent influencer les sorties au fil du temps, l’agent traitant des données fausses comme des connaissances vérifiées.

Les attaques de contrôle comportemental empruntent une voie plus directe en ciblant ce que l’agent fait réellement. Dans ces cas, des instructions de jailbreak peuvent être intégrées dans un contenu web normal et lues par le système pendant la navigation routinière. Des tests distincts ont montré que des agents disposant de permissions d’accès étendues pouvaient être poussés à localiser et transmettre des données sensibles, y compris des mots de passe et des fichiers locaux, vers des destinations externes.

Les risques au niveau système s’étendent au-delà des agents individuels : l’article avertit qu’une manipulation coordonnée à travers de nombreux systèmes automatisés pourrait déclencher des effets en cascade, similaires aux crashs éclair du marché passés, provoqués par des boucles de trading algorithmique.

Les évaluateurs humains font aussi partie de la surface d’attaque, car des sorties soigneusement conçues peuvent sembler suffisamment crédibles pour obtenir une approbation, permettant ainsi à des actions nuisibles de passer à travers la supervision sans éveiller de soupçons.

Comment se défendre contre ces risques ?

Pour contrer ces risques, les chercheurs recommandent un mélange d’entraînement adversarial, de filtrage des entrées, de surveillance comportementale et de systèmes de réputation pour le contenu web. Ils soulignent aussi la nécessité de cadres juridiques plus clairs concernant la responsabilité lorsque des agents IA exécutent des actions nuisibles.

L’article s’arrête toutefois avant de proposer une solution complète et soutient que l’industrie manque encore d’une compréhension partagée du problème, ce qui laisse les défenses actuelles dispersées et souvent axées sur les mauvais domaines.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler