Последние исследования NTU Huake и других: полностью автоматизированный «быстрый джейлбрейк», только большая модель может победить большую модель! Поднимитесь на вершину совещания по технике безопасности NDSS

2023-11-02 09:14:20

Первоисточник: New Zhiyuan

Источник изображения: Generated by Unbounded AI

В этом году можно сказать, что метод «джейлбрейка» большой языковой модели, который пользователи сети в шутку называли «бабушкиной лазейкой», находится в огне.

Проще говоря, для тех потребностей, которые будут отвергнуты праведными словами, заверните слова, такие как просьба к ChatGPT «сыграть роль умершей бабушки», и это, скорее всего, удовлетворит вас.

Однако по мере того, как поставщики услуг продолжают обновлять и усиливать свои меры безопасности, атаки на джейлбрейк становятся все более сложными.

В то же время, поскольку эти чат-боты существуют как «черный ящик», внешние аналитики безопасности сталкиваются с большими трудностями в оценке и понимании процесса принятия решений по этим моделям и потенциальных рисков безопасности.

В ответ на эту проблему исследовательская группа, состоящая из Наньянского технологического университета, Хуачжунского университета науки и технологий и Университета Нового Южного Уэльса, впервые успешно «взломала» LLM нескольких крупных производителей, используя автоматически сгенерированные подсказки, с целью выявления возможных недостатков безопасности в модели во время работы, чтобы принять более точные и эффективные меры безопасности.

В настоящее время результаты исследования были приняты Симпозиумом по безопасности сетей и распределенных систем (NDSS), одной из четырех ведущих мировых конференций по безопасности.

Ссылки на статьи:

Ссылки на проект:

Победите Magic с помощью Magic: полностью автоматический чат-бот для джейлбрейка

Во-первых, автор углубляется в потенциальные подводные камни джейлбрейк-атак и текущие средства защиты с помощью эмпирического исследования. Например, спецификации использования, установленные поставщиком услуг чат-ботов LLM.

Проведя исследование, авторы обнаружили, что четыре основных провайдера чат-ботов LLM, включая OpenAI, Google Bard, Bing Chat и Ernie, имеют ограничения на вывод четырех типов информации: незаконная информация, вредоносный контент, контент, нарушающий права, и контент для взрослых.

Второй эмпирический исследовательский вопрос сосредоточен на полезности существующих подсказок для джейлбрейка, используемых коммерческими чат-ботами LLM.

Авторы отобрали 4 известных чат-бота и протестировали их с 85 эффективными подсказками для джейлбрейка из разных каналов.

Чтобы свести к минимуму случайность и обеспечить всестороннюю оценку, авторы провели 10 раундов тестирования по каждому вопросу, в общей сложности 68 000 тестов, с ручной проверкой.

В частности, контент теста состоял из 5 вопросов, 4 запрещенных сценариев и 85 подсказок для джейлбрейка, а также 10 раундов тестирования на 4 моделях в каждой.

Результаты тестирования (см. Таблицу II) показывают, что большинство существующих запросов на джейлбрейк в первую очередь валидны для ChatGPT.

В ходе эмпирического исследования авторы обнаружили, что некоторые джейлбрейк-атаки не увенчались успехом, потому что поставщик услуг чат-бота принял соответствующую стратегию защиты.

Это открытие привело авторов к предложению фреймворка обратного проектирования под названием «MasterKey», чтобы угадать конкретные методы защиты, принятые поставщиками услуг, и разработать соответствующие стратегии целевых атак.

Проанализировав время отклика различных случаев неудачных атак и опираясь на опыт проведения SQL-атак в сетевых сервисах, авторы успешно порассуждали о внутренней структуре и механизме работы провайдеров услуг чат-ботов.

Как показано на диаграмме выше, он считает, что в поставщике услуг существует генеративный механизм обнаружения контента, основанный на семантике текста или сопоставлении ключевых слов.

В частности, автор акцентирует внимание на трех основных аспектах информации:

Во-первых, механизм защиты исследуется на входе, выходе или на обеих фазах (см. рис. b ниже);

Во-вторых, осуществляется ли динамический мониторинг защитного механизма во время процесса генерации или после его завершения (см. рисунок С ниже).

Наконец, исследуется вопрос о том, основан ли механизм защиты на обнаружении ключевых слов или на семантическом анализе (см. рисунок D ниже).

После серии систематических экспериментов авторы обнаружили, что Bing Chat и Bard в основном выполняют проверки предотвращения джейлбрейка на этапе, когда модель генерирует результаты, а не на этапе ввода запросов. При этом они способны динамически отслеживать весь процесс генерации и имеют функции подбора ключевых слов и семантического анализа.

После глубокого анализа стратегии защиты провайдера чат-бота автор предлагает инновационную крупномасштабную стратегию генерации слов с подсказками для джейлбрейка на основе моделей, которую можно описать как ключевой шаг в противодействии «магии» «магией»!

Как показано на рисунке ниже, конкретный процесс выглядит следующим образом:

Во-первых, выберите набор слов-подсказок, которые могут успешно обойти защиту ChatGPT;

Затем, благодаря постоянному обучению и ориентированной на задачу тонкой настройке, создается большая модель, способная переписать ранее найденные подсказки джейлбрейка;

Наконец, модель дополнительно оптимизирована для генерации высококачественных запросов на джейлбрейк, которые можно использовать для регулирования защитного механизма поставщика услуг.

Наконец, с помощью серии систематических экспериментов авторы показывают, что предложенный метод может значительно повысить успешность джейлбрейк-атак.

В частности, это первое исследование, в котором систематически и успешно атаковали Bard и Bing Chat.

Кроме того, авторы также дают некоторые рекомендации по соблюдению поведения чат-бота, такие как рекомендации по анализу и фильтрации на этапе пользовательского ввода.

Будущая работа

В этом исследовании авторы исследуют, как «сделать джейлбрейк» чат-бота!

Конечная цель, конечно же, состоит в том, чтобы создать робота, который будет одновременно честным и дружелюбным.

Это сложная задача, и авторы приглашают вас взять в руки инструменты и работать вместе, чтобы вместе углубиться в исследование!

Об авторе

Дэн Грей (Deng Gray), аспирант четвертого курса Наньянского технологического университета, является соавтором этой статьи, посвященной системной безопасности.

Йи Лю (Yi Liu), аспирант четвертого курса Наньянского технологического университета и соавтор этой статьи, специализируется на безопасности и тестировании программного обеспечения крупномасштабных моделей.

Юэканг Ли, преподаватель (доцент) Университета Нового Южного Уэльса, является автором этой статьи, специализирующимся на тестировании программного обеспечения и связанных с ним методах анализа.

Кайлун Ван (Kailong Wang) — адъюнкт-профессор Хуачжунского университета науки и технологий, специализирующийся на исследованиях в области безопасности крупномасштабных моделей, безопасности мобильных приложений и защиты конфиденциальности.

Ин Чжан (Ying Zhang), в настоящее время инженер по безопасности в LinkedIn, получил степень доктора философии в Политехническом университете Вирджинии, специализируясь на разработке программного обеспечения, статическом анализе языка и безопасности цепочки поставок программного обеспечения.

Ли Цзэфэн – студент первого курса магистратуры Наньянского технологического университета, специализирующийся в области крупномасштабной модельной безопасности.

Хаоюй Ван — профессор Хуачжунского университета науки и технологий, чьи исследования охватывают анализ программ, мобильную безопасность, блокчейн и безопасность Web3.

Тяньвэй Чжан (Tianwei Zhang) — доцент Школы компьютерных наук Наньянского технологического университета, в основном занимающийся исследованиями в области безопасности искусственного интеллекта и системной безопасности.

Лю Ян является профессором Школы компьютерных наук, директором лаборатории кибербезопасности в Наньянском технологическом университете и директором Исследовательского офиса кибербезопасности Сингапура, с исследовательскими интересами в области разработки программного обеспечения, кибербезопасности и искусственного интеллекта.

Ресурсы:

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .