La última investigación de NTU Huake y otros: "jailbreak rápido" totalmente automatizado, ¡solo el modelo grande puede derrotar al modelo grande! Sube a la cima de la reunión de seguridad NDSS

2023-11-02 09:14:20

Fuente original: New Zhiyuan

Fuente de la imagen: Generado por Unbounded AI

Este año, se puede decir que el método de “jailbreak” del modelo de lenguaje grande, que fue llamado en broma la “laguna de la abuela” por los internautas, está en llamas.

En pocas palabras, para aquellas necesidades que serán rechazadas por palabras justas, envuelva las palabras, como pedirle a ChatGPT que “desempeñe el papel de una abuela fallecida”, y lo más probable es que lo satisfaga.

Sin embargo, a medida que los proveedores de servicios continúan actualizando y fortaleciendo sus medidas de seguridad, los ataques de jailbreak se vuelven cada vez más difíciles.

Al mismo tiempo, debido a que estos chatbots existen como una “caja negra”, los analistas de seguridad externos enfrentan grandes dificultades para evaluar y comprender el proceso de toma de decisiones de estos modelos y los posibles riesgos de seguridad.

En respuesta a este problema, un equipo de investigación compuesto conjuntamente por la Universidad Tecnológica de Nanyang, la Universidad de Ciencia y Tecnología de Huazhong y la Universidad de Nueva Gales del Sur ha “descifrado” con éxito los LLM de varios grandes fabricantes por primera vez utilizando avisos generados automáticamente, con el objetivo de revelar posibles fallas de seguridad en el modelo durante la operación, para tomar medidas de seguridad más precisas y eficientes.

Actualmente, la investigación ha sido aceptada por el Simposio de Seguridad de Redes y Sistemas Distribuidos (NDSS), una de las cuatro conferencias de seguridad más importantes del mundo.

Enlaces de papel:

Enlaces del proyecto:

Derrota a Magic con Magic: Chatbot “Jailbreak” totalmente automático

En primer lugar, el autor profundiza en las posibles trampas de los ataques de jailbreak y las defensas actuales a través de un estudio empírico. Por ejemplo, las especificaciones de uso establecidas por el proveedor de servicios de los chatbots LLM.

Después de investigar, los autores descubrieron que cuatro de los principales proveedores de chatbots de LLM, incluidos OpenAI, Google Bard, Bing Chat y Ernie, tienen restricciones en la salida de cuatro tipos de información: información ilegal, contenido dañino, contenido que infringe derechos y contenido para adultos.

La segunda pregunta de investigación empírica se centra en la utilidad de los avisos de jailbreak existentes utilizados por los chatbots comerciales de LLM.

Los autores seleccionaron 4 chatbots conocidos y los probaron con 85 avisos efectivos de jailbreak de diferentes canales.

Para minimizar la aleatoriedad y garantizar una evaluación exhaustiva, los autores realizaron 10 rondas de pruebas para cada pregunta, para un total de 68.000 pruebas, con comprobaciones manuales.

Específicamente, el contenido de la prueba consistió en 5 preguntas, 4 escenarios prohibidos y 85 indicaciones de jailbreak, y 10 rondas de pruebas en 4 modelos cada una.

Los resultados de la prueba (ver Tabla II) muestran que la mayoría de las indicaciones de jailbreak existentes son principalmente válidas para ChatGPT.

A partir de la investigación empírica, los autores encontraron que algunos ataques de jailbreak fallaron porque el proveedor de servicios de chatbot adoptó una estrategia de defensa correspondiente.

Este hallazgo llevó a los autores a proponer un marco de ingeniería inversa llamado “MasterKey” para adivinar los métodos de defensa específicos adoptados por los proveedores de servicios y diseñar estrategias de ataque dirigidas en consecuencia.

Al analizar el tiempo de respuesta de diferentes casos de falla de ataques y aprovechar la experiencia de ataques SQL en servicios de red, los autores especularon con éxito sobre la estructura interna y el mecanismo de trabajo de los proveedores de servicios de chatbot.

Como se muestra en el diagrama anterior, cree que existe un mecanismo de detección de contenido generativo dentro del proveedor de servicios basado en la semántica del texto o la coincidencia de palabras clave.

En concreto, el autor se centra en tres aspectos principales de la información:

En primer lugar, se explora el mecanismo de defensa en las fases de entrada, salida o ambas (véase la figura b a continuación);

En segundo lugar, si el mecanismo de defensa se monitorea dinámicamente durante el proceso de generación o después de que se completa la generación (consulte la Figura C a continuación).

Por último, se explora si el mecanismo de defensa se basa en la detección de palabras clave o en el análisis semántico (véase la figura D a continuación).

Después de una serie de experimentos sistemáticos, los autores descubrieron además que Bing Chat y Bard realizan principalmente comprobaciones de prevención de jailbreak en la etapa en que el modelo genera los resultados, en lugar de en la etapa de las indicaciones de entrada. Al mismo tiempo, son capaces de monitorizar dinámicamente todo el proceso de generación y disponen de las funciones de coincidencia de palabras clave y análisis semántico.

Después de un análisis en profundidad de la estrategia de defensa del proveedor de chatbot, el autor propone una innovadora estrategia de generación de palabras rápidas de jailbreak basada en modelos a gran escala, que puede describirse como un paso clave para contrarrestar la “magia” con la “magia”.

Como se muestra en la siguiente figura, el proceso específico es el siguiente:

En primer lugar, elija un conjunto de palabras rápidas que puedan eludir con éxito las defensas de ChatGPT;

Luego, a través del entrenamiento continuo y el ajuste orientado a tareas, se crea un modelo grande que puede reescribir las indicaciones de jailbreak encontradas anteriormente;

Finalmente, el modelo se optimiza aún más para generar avisos de jailbreak de alta calidad que se pueden usar para regular el mecanismo de defensa del proveedor de servicios.

Finalmente, a través de una serie de experimentos sistemáticos, los autores muestran que el método propuesto puede mejorar significativamente la tasa de éxito de los ataques de jailbreak.

En particular, este es el primer estudio que ataca sistemática y exitosamente a Bard y Bing Chat.

Además de esto, los autores también hacen algunas recomendaciones para el cumplimiento del comportamiento del chatbot, como recomendaciones para el análisis y el filtrado en la etapa de entrada del usuario.

Trabajo futuro

En este estudio, los autores exploran cómo hacer “jailbreak” a un chatbot.

La visión final, por supuesto, es crear un robot que sea a la vez honesto y amigable.

Esta es una tarea desafiante, y los autores lo invitan a recoger las herramientas y trabajar juntos para profundizar en la investigación juntos.

Sobre el autor

Deng Gray, estudiante de doctorado de cuarto año en la Universidad Tecnológica de Nanyang, es el coautor principal de este artículo, que se centra en la seguridad de los sistemas.

Yi Liu, estudiante de doctorado de cuarto año en la Universidad Tecnológica de Nanyang y coautor de este artículo, se centra en la seguridad y las pruebas de software de modelos a gran escala.

Yuekang Li, profesor asistente de la Universidad de Nueva Gales del Sur, es el autor correspondiente de este artículo, especializado en pruebas de software y técnicas de análisis relacionadas.

Kailong Wang es profesor asociado en la Universidad de Ciencia y Tecnología de Huazhong, con un enfoque de investigación en la seguridad de modelos a gran escala y la seguridad de las aplicaciones móviles y la protección de la privacidad.

Ying Zhang, actualmente ingeniera de seguridad en LinkedIn, obtuvo un doctorado en Virginia Tech, especializándose en ingeniería de software, análisis de lenguaje estático y seguridad de la cadena de suministro de software.

Li Zefeng es un estudiante graduado de primer año en la Universidad Tecnológica de Nanyang, especializado en el campo de la seguridad de modelos a gran escala.

Haoyu Wang es profesor de la Universidad de Ciencia y Tecnología de Huazhong, cuya investigación abarca el análisis de programas, la seguridad móvil, la cadena de bloques y la seguridad Web3.

Tianwei Zhang es profesor asistente en la Facultad de Ciencias de la Computación de la Universidad Tecnológica de Nanyang, y se dedica principalmente a la investigación sobre seguridad de inteligencia artificial y seguridad de sistemas.

Liu Yang es profesor de la Facultad de Ciencias de la Computación, director del Laboratorio de Seguridad Cibernética de la Universidad Tecnológica de Nanyang y director de la Oficina de Investigación de Seguridad Cibernética de Singapur, con intereses de investigación en ingeniería de software, seguridad cibernética e inteligencia artificial.

Recursos:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.