Останні дослідження NTU Huake та інших: повністю автоматизований «оперативний джейлбрейк», тільки велика модель може перемогти велику модель! Підніміться на вершину наради з безпеки NDSS

Першоджерело: Новий Чжиюань

Джерело зображення: Створено Unbounded AI

Цього року, можна сказати, загорівся метод «джейлбрейка» великої мовної моделі, яку користувачі мережі жартома назвали «бабусиною лазівкою».

Простіше кажучи, для тих потреб, які будуть відкинуті праведними словами, загорніть слова, наприклад, попросивши ChatGPT «зіграти роль померлої бабусі», і це, швидше за все, вас задовольнить.

Однак, оскільки постачальники послуг продовжують оновлювати та посилювати свої заходи безпеки, атаки з джейлбрейком стають дедалі складнішими.

Водночас, оскільки ці чат-боти існують як «чорна скринька», зовнішні аналітики безпеки стикаються з великими труднощами в оцінці та розумінні процесу прийняття рішень щодо цих моделей та потенційних ризиків безпеки.

У відповідь на цю проблему дослідницька група, що складається спільно з Наньянського технологічного університету, Хуачжунського університету науки і технологій та Університету Нового Південного Уельсу, вперше успішно «зламала» LLM кількох великих виробників, використовуючи автоматично згенеровані підказки, з метою виявлення можливих недоліків безпеки в моделі під час роботи, щоб вжити більш точних та ефективних заходів безпеки.

В даний час дослідження було прийнято Симпозіумом з безпеки мереж і розподілених систем (NDSS), однією з чотирьох провідних світових конференцій з безпеки.

Паперові посилання:

Посилання на проект:

Перемагайте магію за допомогою магії: повністю автоматичний чат-бот «Джейлбрейк»

По-перше, автор заглиблюється в потенційні підводні камені атак з втечі з в’язниці та поточні засоби захисту за допомогою емпіричного дослідження. Наприклад, специфікації використання, встановлені постачальником послуг чат-ботів LLM.

Провівши розслідування, автори виявили, що чотири основні постачальники чат-ботів LLM, включаючи OpenAI, Google Bard, Bing Chat та Ernie, мають обмеження на виведення чотирьох типів інформації: незаконна інформація, шкідливий контент, контент, який порушує права, та контент для дорослих.

Друге питання емпіричного дослідження зосереджене на корисності існуючих підказок про джейлбрейк, які використовуються комерційними чат-ботами LLM.

Автори відібрали 4 відомих чат-бота та протестували їх за допомогою 85 ефективних підказок щодо джейлбрейка з різних каналів.

Щоб мінімізувати випадковість і забезпечити всебічну оцінку, автори провели 10 раундів тестування для кожного питання, загалом 68 000 тестів, з ручною перевіркою.

Зокрема, зміст тесту складався з 5 питань, 4 заборонених сценаріїв і 85 підказок щодо джейлбрейка, а також 10 раундів тестування на 4 моделях кожен.

Результати тестів (див. Таблицю II) показують, що більшість існуючих джейлбрейк-підказок в першу чергу справедливі для ChatGPT.

З емпіричного дослідження автори виявили, що деякі джейлбрейк-атаки зазнали невдачі через те, що постачальник послуг чат-бота прийняв відповідну стратегію захисту.

Цей висновок змусив авторів запропонувати фреймворк зворотного інжинірингу під назвою «MasterKey», щоб вгадати конкретні методи захисту, прийняті постачальниками послуг, і відповідно розробити цільові стратегії атак.

Проаналізувавши час відгуку на різні випадки відмови атак і спираючись на досвід SQL-атак в мережевих сервісах, автори успішно поміркували про внутрішню структуру і механізм роботи постачальників послуг чат-ботів.

Як показано на діаграмі вище, він вважає, що в постачальника послуг існує механізм виявлення генеративного контенту, заснований на семантиці тексту або відповідності ключових слів.

Зокрема, автор акцентує увагу на трьох основних аспектах інформації:

По-перше, захисний механізм досліджується на вході, виході або обох фазах (див. Рисунок b нижче);

По-друге, чи здійснюється динамічний моніторинг захисного механізму під час процесу генерації або після його завершення (див. рисунок С нижче).

Нарешті, досліджується, чи заснований захисний механізм на виявленні ключових слів або семантичному аналізі (див. Рисунок D нижче).

Після серії систематичних експериментів автори додатково виявили, що Bing Chat і Bard в основному виконують перевірки запобігання джейлбрейку на етапі, коли модель генерує результати, а не на етапі введення підказок. При цьому вони здатні динамічно контролювати весь процес генерації та мають функції зіставлення ключових слів та семантичного аналізу.

Після глибокого аналізу стратегії захисту провайдера чат-ботів, автор пропонує інноваційну великомасштабну стратегію генерації слів джейлбрейк-підказок на основі моделі, яку можна охарактеризувати як ключовий крок у протистоянні «магії» за допомогою «магії»!

Як показано на малюнку нижче, конкретний процес виглядає наступним чином:

По-перше, виберіть набір слів-підказок, які можуть успішно обійти захист ChatGPT;

Потім, шляхом безперервного навчання і орієнтованого на завдання тонкого налаштування, створюється велика модель, яка здатна переписувати раніше знайдені підказки джейлбрейка;

Нарешті, модель додатково оптимізована для генерації високоякісних підказок про джейлбрейк, які можуть бути використані для регулювання захисного механізму постачальника послуг.

Нарешті, за допомогою серії систематичних експериментів автори показують, що запропонований метод може значно підвищити успішність джейлбрейк-атак.

Зокрема, це перше дослідження, яке систематично та успішно атакує Bard та Bing Chat.

На додаток до цього, автори також дають деякі рекомендації щодо відповідності поведінки чат-ботів, наприклад, рекомендації щодо аналізу та фільтрації на етапі введення даних користувачем.

Майбутня робота

У цьому дослідженні автори досліджують, як «джейлбрейкнути» чат-бота!

Кінцеве бачення, звичайно, полягає в тому, щоб створити робота, який буде одночасно чесним і доброзичливим.

Це складне завдання, і автори запрошують вас взяти інструменти та працювати разом, щоб разом зануритися глибше в дослідження!

Про автора

Ден Грей, аспірант четвертого року навчання в Наньянському технологічному університеті, є співавтором цієї статті, присвяченої безпеці системи.

І Лю, аспірант четвертого року навчання в Наньянському технологічному університеті та співавтор цієї статті, зосереджується на безпеці та тестуванні програмного забезпечення великомасштабних моделей.

Юекан Лі, викладач (доцент) Університету Нового Південного Уельсу, є відповідальним автором цієї статті, що спеціалізується на тестуванні програмного забезпечення та пов’язаних з ним методах аналізу.

Кайлун Ван є доцентом Хуачжунського університету науки і технологій, який спеціалізується на безпеці великомасштабних моделей, безпеці мобільних додатків і захисті конфіденційності.

Ін Чжан, який зараз працює інженером з безпеки в LinkedIn, отримав ступінь доктора філософії в Virginia Tech, спеціалізуючись на розробці програмного забезпечення, статичному аналізі мови та безпеці ланцюжка поставок програмного забезпечення.

Лі Цзефен – аспірант першого року навчання в Наньянському технологічному університеті, спеціалізується в галузі безпеки великомасштабних моделей.

Хаоюй Ван — професор Хуачжунського університету науки та технологій, чиї дослідження охоплюють аналіз програм, мобільну безпеку, блокчейн та безпеку Web3.

Тяньвей Чжан є доцентом Школи комп’ютерних наук Наньянського технологічного університету, в основному займається дослідженнями безпеки штучного інтелекту та безпеки систем.

Лю Ян є професором Школи комп’ютерних наук, директором лабораторії кібербезпеки в Наньянському технологічному університеті та директором Дослідницького офісу кібербезпеки Сінгапуру, який має дослідницькі інтереси в галузі розробки програмного забезпечення, кібербезпеки та штучного інтелекту.

Ресурси:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів