Les dernières recherches de NTU Huake et d’autres : « Prompt jailbreak » entièrement automatisé, seul le grand modèle peut vaincre le grand modèle ! Grimpez au sommet de la réunion de sécurité NDSS

2023-11-02 09:14:20

Source d’origine : New Zhiyuan

Source de l’image : Généré par Unbounded AI

Cette année, on peut dire que la méthode du « jailbreak » du grand modèle de langage, qui a été appelée en plaisantant « l’échappatoire de la grand-mère » par les internautes, est en feu.

Pour le dire simplement, pour les besoins qui seront rejetés par des mots justes, enveloppez les mots, comme demander à ChatGPT de « jouer le rôle d’une grand-mère décédée », et cela vous satisfera très probablement.

Cependant, à mesure que les fournisseurs de services continuent de mettre à jour et de renforcer leurs mesures de sécurité, les attaques de jailbreak deviennent de plus en plus difficiles.

Dans le même temps, parce que ces chatbots existent comme une « boîte noire », les analystes de sécurité externes sont confrontés à de grandes difficultés pour évaluer et comprendre le processus décisionnel de ces modèles et les risques de sécurité potentiels.

En réponse à ce problème, une équipe de recherche composée conjointement de l’Université technologique de Nanyang, de l’Université des sciences et technologies de Huazhong et de l’Université de Nouvelle-Galles du Sud a réussi à « craquer » les LLM de plusieurs grands fabricants pour la première fois en utilisant des invites générées automatiquement, dans le but de révéler d’éventuelles failles de sécurité dans le modèle pendant le fonctionnement, afin de prendre des mesures de sécurité plus précises et plus efficaces.

À l’heure actuelle, la recherche a été acceptée par le Network and Distributed Systems Security Symposium (NDSS), l’une des quatre plus grandes conférences mondiales sur la sécurité.

Liens vers les articles :

Liens vers le projet :

Battez Magic avec Magic : Chatbot « Jailbreak » entièrement automatique

Tout d’abord, l’auteur se penche sur les pièges potentiels des attaques de jailbreak et les défenses actuelles à travers une étude empirique. Par exemple, les spécifications d’utilisation définies par le fournisseur de services des chatbots LLM.

Après enquête, les auteurs ont constaté que quatre grands fournisseurs de chatbots LLM, dont OpenAI, Google Bard, Bing Chat et Ernie, ont des restrictions sur la sortie de quatre types d’informations : les informations illégales, les contenus préjudiciables, les contenus qui enfreignent les droits et les contenus pour adultes.

La deuxième question de recherche empirique porte sur l’utilité des invites de jailbreak existantes utilisées par les chatbots commerciaux de LLM.

Les auteurs ont sélectionné 4 chatbots bien connus et les ont testés avec 85 invites de jailbreak efficaces provenant de différents canaux.

Afin de minimiser le caractère aléatoire et d’assurer une évaluation complète, les auteurs ont effectué 10 séries de tests pour chaque question, pour un total de 68 000 tests, avec des vérifications manuelles.

Plus précisément, le contenu du test se composait de 5 questions, 4 scénarios interdits et 85 invites de jailbreak, et 10 séries de tests sur 4 modèles chacun.

Les résultats des tests (voir le tableau II) montrent que la plupart des invites de jailbreak existantes sont principalement valides pour ChatGPT.

À partir de la recherche empirique, les auteurs ont constaté que certaines attaques de jailbreak ont échoué parce que le fournisseur de services de chatbot a adopté une stratégie de défense correspondante.

Ce constat a conduit les auteurs à proposer un cadre de rétro-ingénierie appelé « MasterKey » afin de deviner les méthodes de défense spécifiques adoptées par les fournisseurs de services et de concevoir des stratégies d’attaques ciblées en conséquence.

En analysant le temps de réponse de différents cas d’échec d’attaque et en s’appuyant sur l’expérience des attaques SQL dans les services réseau, les auteurs ont réussi à spéculer sur la structure interne et le mécanisme de fonctionnement des fournisseurs de services de chatbot.

Comme le montre le schéma ci-dessus, il pense qu’il existe un mécanisme de détection de contenu génératif au sein du fournisseur de services basé sur la sémantique du texte ou la correspondance de mots-clés.

Plus précisément, l’auteur se concentre sur trois aspects principaux de l’information :

Tout d’abord, le mécanisme de défense est exploré dans les phases d’entrée, de sortie ou les deux (voir la figure b ci-dessous) ;

Deuxièmement, si le mécanisme de défense est surveillé dynamiquement pendant le processus de génération ou après la fin de la génération (voir la figure C ci-dessous).

Enfin, la question de savoir si le mécanisme de défense est basé sur la détection de mots-clés ou sur l’analyse sémantique est explorée (voir Figure D ci-dessous).

Après une série d’expériences systématiques, les auteurs ont en outre constaté que Bing Chat et Bard effectuent principalement des vérifications de prévention du jailbreak au stade où le modèle génère les résultats, plutôt qu’au stade des invites d’entrée. En même temps, ils sont capables de surveiller dynamiquement l’ensemble du processus de génération et disposent des fonctions de correspondance de mots-clés et d’analyse sémantique.

Après une analyse approfondie de la stratégie de défense du fournisseur de chatbot, l’auteur propose ensuite une stratégie innovante de génération de mots d’invite de jailbreak à grande échelle basée sur un modèle, qui peut être décrite comme une étape clé pour contrer la « magie » par la « magie » !

Comme le montre la figure ci-dessous, le processus spécifique est le suivant :

Tout d’abord, choisissez un ensemble de mots rapides qui peuvent contourner avec succès les défenses de ChatGPT ;

Ensuite, grâce à une formation continue et à un réglage fin axé sur les tâches, un grand modèle est créé qui est capable de réécrire les invites de jailbreak précédemment trouvées ;

Enfin, le modèle est optimisé pour générer des invites de jailbreak de haute qualité qui peuvent être utilisées pour réguler le mécanisme de défense du fournisseur de services.

Enfin, à travers une série d’expériences systématiques, les auteurs montrent que la méthode proposée peut améliorer significativement le taux de réussite des attaques de jailbreak.

En particulier, il s’agit de la première étude à attaquer systématiquement et avec succès Bard et Bing Chat.

En plus de cela, les auteurs font également quelques recommandations pour la conformité du comportement du chatbot, telles que des recommandations d’analyse et de filtrage à l’étape de la saisie de l’utilisateur.

Travaux futurs

Dans cette étude, les auteurs explorent comment « jailbreaker » un chatbot !

La vision ultime, bien sûr, est de créer un robot à la fois honnête et amical.

Il s’agit d’une tâche difficile, et les auteurs vous invitent à prendre les outils et à travailler ensemble pour approfondir la recherche ensemble !

À propos de l’auteur

Deng Gray, étudiant en quatrième année de doctorat à l’Université technologique de Nanyang, est le co-premier auteur de cet article, axé sur la sécurité des systèmes.

Yi Liu, étudiante en quatrième année de doctorat à l’Université technologique de Nanyang et co-première auteure de cet article, se concentre sur la sécurité et les tests logiciels de modèles à grande échelle.

Yuekang Li, maître de conférences (professeur adjoint) à l’Université de Nouvelle-Galles du Sud, est l’auteur correspondant de cet article, spécialisé dans les tests de logiciels et les techniques d’analyse connexes.

Kailong Wang est professeur agrégé à l’Université des sciences et technologies de Huazhong, avec un accent de recherche sur la sécurité des modèles à grande échelle et la sécurité des applications mobiles et la protection de la vie privée.

Ying Zhang, actuellement ingénieur en sécurité chez LinkedIn, a obtenu un doctorat à Virginia Tech, spécialisé dans le génie logiciel, l’analyse statique du langage et la sécurité de la chaîne d’approvisionnement logicielle.

Li Zefeng est un étudiant de première année à l’Université technologique de Nanyang, spécialisé dans le domaine de la sécurité des modèles à grande échelle.

Haoyu Wang est professeur à l’Université des sciences et technologies de Huazhong, dont les recherches portent sur l’analyse des programmes, la sécurité mobile, la blockchain et la sécurité Web3.

Tianwei Zhang est professeur adjoint à l’École d’informatique de l’Université technologique de Nanyang, principalement engagé dans la recherche sur la sécurité de l’intelligence artificielle et la sécurité des systèmes.

Liu Yang est professeur à l’École d’informatique, directeur du laboratoire de cybersécurité de l’Université technologique de Nanyang et directeur du Bureau de recherche en cybersécurité de Singapour, avec des intérêts de recherche en génie logiciel, en cybersécurité et en intelligence artificielle.

Ressources:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.