Последние исследования NTU Huake и других: полностью автоматизированный «быстрый джейлбрейк», только большая модель может победить большую модель! Поднимитесь на вершину совещания по технике безопасности NDSS
В этом году можно сказать, что метод «джейлбрейка» большой языковой модели, который пользователи сети в шутку называли «бабушкиной лазейкой», находится в огне.
Проще говоря, для тех потребностей, которые будут отвергнуты праведными словами, заверните слова, такие как просьба к ChatGPT «сыграть роль умершей бабушки», и это, скорее всего, удовлетворит вас.
Однако по мере того, как поставщики услуг продолжают обновлять и усиливать свои меры безопасности, атаки на джейлбрейк становятся все более сложными.
В то же время, поскольку эти чат-боты существуют как «черный ящик», внешние аналитики безопасности сталкиваются с большими трудностями в оценке и понимании процесса принятия решений по этим моделям и потенциальных рисков безопасности.
В ответ на эту проблему исследовательская группа, состоящая из Наньянского технологического университета, Хуачжунского университета науки и технологий и Университета Нового Южного Уэльса, впервые успешно «взломала» LLM нескольких крупных производителей, используя автоматически сгенерированные подсказки, с целью выявления возможных недостатков безопасности в модели во время работы, чтобы принять более точные и эффективные меры безопасности.
В настоящее время результаты исследования были приняты Симпозиумом по безопасности сетей и распределенных систем (NDSS), одной из четырех ведущих мировых конференций по безопасности.
Ссылки на статьи:
Ссылки на проект:
Победите Magic с помощью Magic: полностью автоматический чат-бот для джейлбрейка
Во-первых, автор углубляется в потенциальные подводные камни джейлбрейк-атак и текущие средства защиты с помощью эмпирического исследования. Например, спецификации использования, установленные поставщиком услуг чат-ботов LLM.
Проведя исследование, авторы обнаружили, что четыре основных провайдера чат-ботов LLM, включая OpenAI, Google Bard, Bing Chat и Ernie, имеют ограничения на вывод четырех типов информации: незаконная информация, вредоносный контент, контент, нарушающий права, и контент для взрослых.
Второй эмпирический исследовательский вопрос сосредоточен на полезности существующих подсказок для джейлбрейка, используемых коммерческими чат-ботами LLM.
Авторы отобрали 4 известных чат-бота и протестировали их с 85 эффективными подсказками для джейлбрейка из разных каналов.
Чтобы свести к минимуму случайность и обеспечить всестороннюю оценку, авторы провели 10 раундов тестирования по каждому вопросу, в общей сложности 68 000 тестов, с ручной проверкой.
В частности, контент теста состоял из 5 вопросов, 4 запрещенных сценариев и 85 подсказок для джейлбрейка, а также 10 раундов тестирования на 4 моделях в каждой.
Результаты тестирования (см. Таблицу II) показывают, что большинство существующих запросов на джейлбрейк в первую очередь валидны для ChatGPT.
В ходе эмпирического исследования авторы обнаружили, что некоторые джейлбрейк-атаки не увенчались успехом, потому что поставщик услуг чат-бота принял соответствующую стратегию защиты.
Это открытие привело авторов к предложению фреймворка обратного проектирования под названием «MasterKey», чтобы угадать конкретные методы защиты, принятые поставщиками услуг, и разработать соответствующие стратегии целевых атак.
Проанализировав время отклика различных случаев неудачных атак и опираясь на опыт проведения SQL-атак в сетевых сервисах, авторы успешно порассуждали о внутренней структуре и механизме работы провайдеров услуг чат-ботов.
Как показано на диаграмме выше, он считает, что в поставщике услуг существует генеративный механизм обнаружения контента, основанный на семантике текста или сопоставлении ключевых слов.
В частности, автор акцентирует внимание на трех основных аспектах информации:
Во-первых, механизм защиты исследуется на входе, выходе или на обеих фазах (см. рис. b ниже);
Во-вторых, осуществляется ли динамический мониторинг защитного механизма во время процесса генерации или после его завершения (см. рисунок С ниже).
Наконец, исследуется вопрос о том, основан ли механизм защиты на обнаружении ключевых слов или на семантическом анализе (см. рисунок D ниже).
После серии систематических экспериментов авторы обнаружили, что Bing Chat и Bard в основном выполняют проверки предотвращения джейлбрейка на этапе, когда модель генерирует результаты, а не на этапе ввода запросов. При этом они способны динамически отслеживать весь процесс генерации и имеют функции подбора ключевых слов и семантического анализа.
После глубокого анализа стратегии защиты провайдера чат-бота автор предлагает инновационную крупномасштабную стратегию генерации слов с подсказками для джейлбрейка на основе моделей, которую можно описать как ключевой шаг в противодействии «магии» «магией»!
Как показано на рисунке ниже, конкретный процесс выглядит следующим образом:
Во-первых, выберите набор слов-подсказок, которые могут успешно обойти защиту ChatGPT;
Затем, благодаря постоянному обучению и ориентированной на задачу тонкой настройке, создается большая модель, способная переписать ранее найденные подсказки джейлбрейка;
Наконец, модель дополнительно оптимизирована для генерации высококачественных запросов на джейлбрейк, которые можно использовать для регулирования защитного механизма поставщика услуг.
Наконец, с помощью серии систематических экспериментов авторы показывают, что предложенный метод может значительно повысить успешность джейлбрейк-атак.
В частности, это первое исследование, в котором систематически и успешно атаковали Bard и Bing Chat.
Кроме того, авторы также дают некоторые рекомендации по соблюдению поведения чат-бота, такие как рекомендации по анализу и фильтрации на этапе пользовательского ввода.
Будущая работа
В этом исследовании авторы исследуют, как «сделать джейлбрейк» чат-бота!
Конечная цель, конечно же, состоит в том, чтобы создать робота, который будет одновременно честным и дружелюбным.
Это сложная задача, и авторы приглашают вас взять в руки инструменты и работать вместе, чтобы вместе углубиться в исследование!
Об авторе
Дэн Грей (Deng Gray), аспирант четвертого курса Наньянского технологического университета, является соавтором этой статьи, посвященной системной безопасности.
Йи Лю (Yi Liu), аспирант четвертого курса Наньянского технологического университета и соавтор этой статьи, специализируется на безопасности и тестировании программного обеспечения крупномасштабных моделей.
Юэканг Ли, преподаватель (доцент) Университета Нового Южного Уэльса, является автором этой статьи, специализирующимся на тестировании программного обеспечения и связанных с ним методах анализа.
Кайлун Ван (Kailong Wang) — адъюнкт-профессор Хуачжунского университета науки и технологий, специализирующийся на исследованиях в области безопасности крупномасштабных моделей, безопасности мобильных приложений и защиты конфиденциальности.
Ин Чжан (Ying Zhang), в настоящее время инженер по безопасности в LinkedIn, получил степень доктора философии в Политехническом университете Вирджинии, специализируясь на разработке программного обеспечения, статическом анализе языка и безопасности цепочки поставок программного обеспечения.
Ли Цзэфэн – студент первого курса магистратуры Наньянского технологического университета, специализирующийся в области крупномасштабной модельной безопасности.
Хаоюй Ван — профессор Хуачжунского университета науки и технологий, чьи исследования охватывают анализ программ, мобильную безопасность, блокчейн и безопасность Web3.
Тяньвэй Чжан (Tianwei Zhang) — доцент Школы компьютерных наук Наньянского технологического университета, в основном занимающийся исследованиями в области безопасности искусственного интеллекта и системной безопасности.
Лю Ян является профессором Школы компьютерных наук, директором лаборатории кибербезопасности в Наньянском технологическом университете и директором Исследовательского офиса кибербезопасности Сингапура, с исследовательскими интересами в области разработки программного обеспечения, кибербезопасности и искусственного интеллекта.
Ресурсы:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Последние исследования NTU Huake и других: полностью автоматизированный «быстрый джейлбрейк», только большая модель может победить большую модель! Поднимитесь на вершину совещания по технике безопасности NDSS
Первоисточник: New Zhiyuan
В этом году можно сказать, что метод «джейлбрейка» большой языковой модели, который пользователи сети в шутку называли «бабушкиной лазейкой», находится в огне.
Проще говоря, для тех потребностей, которые будут отвергнуты праведными словами, заверните слова, такие как просьба к ChatGPT «сыграть роль умершей бабушки», и это, скорее всего, удовлетворит вас.
В то же время, поскольку эти чат-боты существуют как «черный ящик», внешние аналитики безопасности сталкиваются с большими трудностями в оценке и понимании процесса принятия решений по этим моделям и потенциальных рисков безопасности.
В ответ на эту проблему исследовательская группа, состоящая из Наньянского технологического университета, Хуачжунского университета науки и технологий и Университета Нового Южного Уэльса, впервые успешно «взломала» LLM нескольких крупных производителей, используя автоматически сгенерированные подсказки, с целью выявления возможных недостатков безопасности в модели во время работы, чтобы принять более точные и эффективные меры безопасности.
В настоящее время результаты исследования были приняты Симпозиумом по безопасности сетей и распределенных систем (NDSS), одной из четырех ведущих мировых конференций по безопасности.
Ссылки на проект:
Победите Magic с помощью Magic: полностью автоматический чат-бот для джейлбрейка
Во-первых, автор углубляется в потенциальные подводные камни джейлбрейк-атак и текущие средства защиты с помощью эмпирического исследования. Например, спецификации использования, установленные поставщиком услуг чат-ботов LLM.
Проведя исследование, авторы обнаружили, что четыре основных провайдера чат-ботов LLM, включая OpenAI, Google Bard, Bing Chat и Ernie, имеют ограничения на вывод четырех типов информации: незаконная информация, вредоносный контент, контент, нарушающий права, и контент для взрослых.
Авторы отобрали 4 известных чат-бота и протестировали их с 85 эффективными подсказками для джейлбрейка из разных каналов.
Чтобы свести к минимуму случайность и обеспечить всестороннюю оценку, авторы провели 10 раундов тестирования по каждому вопросу, в общей сложности 68 000 тестов, с ручной проверкой.
В частности, контент теста состоял из 5 вопросов, 4 запрещенных сценариев и 85 подсказок для джейлбрейка, а также 10 раундов тестирования на 4 моделях в каждой.
Результаты тестирования (см. Таблицу II) показывают, что большинство существующих запросов на джейлбрейк в первую очередь валидны для ChatGPT.
Это открытие привело авторов к предложению фреймворка обратного проектирования под названием «MasterKey», чтобы угадать конкретные методы защиты, принятые поставщиками услуг, и разработать соответствующие стратегии целевых атак.
Проанализировав время отклика различных случаев неудачных атак и опираясь на опыт проведения SQL-атак в сетевых сервисах, авторы успешно порассуждали о внутренней структуре и механизме работы провайдеров услуг чат-ботов.
В частности, автор акцентирует внимание на трех основных аспектах информации:
Во-первых, механизм защиты исследуется на входе, выходе или на обеих фазах (см. рис. b ниже);
Во-вторых, осуществляется ли динамический мониторинг защитного механизма во время процесса генерации или после его завершения (см. рисунок С ниже).
Наконец, исследуется вопрос о том, основан ли механизм защиты на обнаружении ключевых слов или на семантическом анализе (см. рисунок D ниже).
После серии систематических экспериментов авторы обнаружили, что Bing Chat и Bard в основном выполняют проверки предотвращения джейлбрейка на этапе, когда модель генерирует результаты, а не на этапе ввода запросов. При этом они способны динамически отслеживать весь процесс генерации и имеют функции подбора ключевых слов и семантического анализа.
Как показано на рисунке ниже, конкретный процесс выглядит следующим образом:
Во-первых, выберите набор слов-подсказок, которые могут успешно обойти защиту ChatGPT;
Затем, благодаря постоянному обучению и ориентированной на задачу тонкой настройке, создается большая модель, способная переписать ранее найденные подсказки джейлбрейка;
Наконец, модель дополнительно оптимизирована для генерации высококачественных запросов на джейлбрейк, которые можно использовать для регулирования защитного механизма поставщика услуг.
В частности, это первое исследование, в котором систематически и успешно атаковали Bard и Bing Chat.
Кроме того, авторы также дают некоторые рекомендации по соблюдению поведения чат-бота, такие как рекомендации по анализу и фильтрации на этапе пользовательского ввода.
Будущая работа
В этом исследовании авторы исследуют, как «сделать джейлбрейк» чат-бота!
Конечная цель, конечно же, состоит в том, чтобы создать робота, который будет одновременно честным и дружелюбным.
Это сложная задача, и авторы приглашают вас взять в руки инструменты и работать вместе, чтобы вместе углубиться в исследование!
Об авторе
Дэн Грей (Deng Gray), аспирант четвертого курса Наньянского технологического университета, является соавтором этой статьи, посвященной системной безопасности.
Йи Лю (Yi Liu), аспирант четвертого курса Наньянского технологического университета и соавтор этой статьи, специализируется на безопасности и тестировании программного обеспечения крупномасштабных моделей.
Юэканг Ли, преподаватель (доцент) Университета Нового Южного Уэльса, является автором этой статьи, специализирующимся на тестировании программного обеспечения и связанных с ним методах анализа.
Кайлун Ван (Kailong Wang) — адъюнкт-профессор Хуачжунского университета науки и технологий, специализирующийся на исследованиях в области безопасности крупномасштабных моделей, безопасности мобильных приложений и защиты конфиденциальности.
Ин Чжан (Ying Zhang), в настоящее время инженер по безопасности в LinkedIn, получил степень доктора философии в Политехническом университете Вирджинии, специализируясь на разработке программного обеспечения, статическом анализе языка и безопасности цепочки поставок программного обеспечения.
Ли Цзэфэн – студент первого курса магистратуры Наньянского технологического университета, специализирующийся в области крупномасштабной модельной безопасности.
Хаоюй Ван — профессор Хуачжунского университета науки и технологий, чьи исследования охватывают анализ программ, мобильную безопасность, блокчейн и безопасность Web3.
Тяньвэй Чжан (Tianwei Zhang) — доцент Школы компьютерных наук Наньянского технологического университета, в основном занимающийся исследованиями в области безопасности искусственного интеллекта и системной безопасности.
Лю Ян является профессором Школы компьютерных наук, директором лаборатории кибербезопасности в Наньянском технологическом университете и директором Исследовательского офиса кибербезопасности Сингапура, с исследовательскими интересами в области разработки программного обеспечения, кибербезопасности и искусственного интеллекта.
Ресурсы: