A mais recente pesquisa da NTU Huake e outros: "jailbreak rápido" totalmente automatizado, apenas o grande modelo pode derrotar o grande modelo! Suba até o topo da reunião de segurança NDSS

Fonte original: New Zhiyuan

Fonte da imagem: Gerado por Unbounded AI

Este ano, pode-se dizer que o método “jailbreak” do modelo de linguagem grande, que foi chamado jocosamente de “brecha da vovó” pelos internautas, está pegando fogo.

Para simplificar, para aquelas necessidades que serão rejeitadas por palavras justas, embrulhe as palavras, como pedir ao ChatGPT para “desempenhar o papel de uma avó falecida”, e isso provavelmente irá satisfazê-lo.

No entanto, à medida que os prestadores de serviços continuam a atualizar e reforçar as suas medidas de segurança, os ataques de jailbreak tornam-se cada vez mais difíceis.

Ao mesmo tempo, como esses chatbots existem como uma “caixa preta”, os analistas de segurança externos enfrentam grandes dificuldades para avaliar e entender o processo de tomada de decisão desses modelos e potenciais riscos de segurança.

Em resposta a este problema, uma equipa de investigação composta conjuntamente pela Universidade Tecnológica de Nanyang, pela Universidade de Ciência e Tecnologia de Huazhong e pela Universidade de Nova Gales do Sul “quebrou” com sucesso os LLMs de vários grandes fabricantes pela primeira vez usando prompts gerados automaticamente, com o objetivo de revelar possíveis falhas de segurança no modelo durante a operação, de modo a tomar medidas de segurança mais precisas e eficientes.

Atualmente, a pesquisa foi aceita pelo Network and Distributed Systems Security Symposium (NDSS), uma das quatro principais conferências de segurança do mundo.

Links do artigo:

Links do projeto:

Derrote Magic com Magic: Chatbot “Jailbreak” totalmente automático

Primeiro, o autor mergulha nas armadilhas potenciais dos ataques de jailbreak e nas defesas atuais através de um estudo empírico. Por exemplo, as especificações de uso definidas pelo provedor de serviços de chatbots LLM.

Depois de investigar, os autores descobriram que quatro grandes provedores de chatbots LLM, incluindo OpenAI, Google Bard, Bing Chat e Ernie, têm restrições na saída de quatro tipos de informações: informações ilegais, conteúdo prejudicial, conteúdo que infringe direitos e conteúdo adulto.

A segunda questão de pesquisa empírica se concentra na utilidade dos prompts de jailbreak existentes usados por chatbots LLM comerciais.

Os autores selecionaram 4 chatbots bem conhecidos e os testaram com 85 prompts de jailbreak eficazes de diferentes canais.

Para minimizar a aleatoriedade e garantir uma avaliação abrangente, os autores realizaram 10 rodadas de testes para cada questão, totalizando 68.000 testes, com verificações manuais.

Especificamente, o conteúdo do teste consistiu em 5 perguntas, 4 cenários proibidos e 85 prompts de jailbreak, e 10 rodadas de testes em 4 modelos cada.

Os resultados do teste (consulte a Tabela II) mostram que a maioria dos prompts de jailbreak existentes são válidos principalmente para o ChatGPT.

A partir da pesquisa empírica, os autores descobriram que alguns ataques de jailbreak falharam porque o provedor de serviços de chatbot adotou uma estratégia de defesa correspondente.

Esta descoberta levou os autores a propor uma estrutura de engenharia reversa chamada “MasterKey”, a fim de adivinhar os métodos de defesa específicos adotados pelos provedores de serviços e projetar estratégias de ataque direcionadas de acordo.

Ao analisar o tempo de resposta de diferentes casos de falha de ataque e aproveitar a experiência de ataques SQL em serviços de rede, os autores especularam com sucesso sobre a estrutura interna e o mecanismo de trabalho dos provedores de serviços de chatbot.

Como mostrado no diagrama acima, ele acredita que há um mecanismo de deteção de conteúdo generativo dentro do provedor de serviços com base na semântica de texto ou correspondência de palavras-chave.

Especificamente, o autor concentra-se em três aspetos principais da informação:

Primeiro, o mecanismo de defesa é explorado nas fases de entrada, saída ou ambas (ver Figura b abaixo);

Em segundo lugar, se o mecanismo de defesa é monitorizado dinamicamente durante o processo de geração ou após a conclusão da geração (ver Figura C abaixo).

Finalmente, se o mecanismo de defesa é baseado na deteção de palavras-chave ou análise semântica é explorado (veja a Figura D abaixo).

Após uma série de experimentos sistemáticos, os autores descobriram ainda que o Bing Chat e o Bard realizam principalmente verificações de prevenção de jailbreak no estágio em que o modelo gera os resultados, em vez de no estágio de prompts de entrada. Ao mesmo tempo, eles são capazes de monitorar dinamicamente todo o processo de geração e têm as funções de correspondência de palavras-chave e análise semântica.

Após uma análise aprofundada da estratégia de defesa do provedor de chatbot, o autor propõe uma estratégia inovadora de geração de palavras rápida de jailbreak baseada em modelo em larga escala, que pode ser descrita como um passo fundamental para combater “magia” com “magia”!

Como mostra a figura abaixo, o processo específico é o seguinte:

Primeiro, escolha um conjunto de palavras rápidas que possam contornar com sucesso as defesas do ChatGPT;

Em seguida, através de treinamento contínuo e ajuste fino orientado a tarefas, um grande modelo é criado que é capaz de reescrever prompts de jailbreak encontrados anteriormente;

Finalmente, o modelo é otimizado para gerar prompts de jailbreak de alta qualidade que podem ser usados para regular o mecanismo de defesa do provedor de serviços.

Finalmente, através de uma série de experimentos sistemáticos, os autores mostram que o método proposto pode melhorar significativamente a taxa de sucesso de ataques de jailbreak.

Em particular, este é o primeiro estudo a atacar sistematicamente e com sucesso o Bard e o Bing Chat.

Além disso, os autores também fazem algumas recomendações para a conformidade do comportamento do chatbot, como recomendações para análise e filtragem na etapa de entrada do usuário.

Trabalho Futuro

Neste estudo, os autores exploram como “jailbreak” um chatbot!

A visão final, é claro, é criar um robô que seja honesto e amigável.

Esta é uma tarefa desafiadora, e os autores convidam você a pegar as ferramentas e trabalhar juntos para aprofundar a pesquisa juntos!

Sobre o autor

Deng Gray, estudante do quarto ano de doutorado na Universidade Tecnológica de Nanyang, é o coprimeiro autor deste artigo, com foco na segurança do sistema.

Yi Liu, estudante do quarto ano de doutoramento na Universidade Tecnológica de Nanyang e coprimeiro autor deste artigo, centra-se na segurança e nos testes de software de modelos em larga escala.

Yuekang Li, professor assistente na Universidade de Nova Gales do Sul, é o autor correspondente deste artigo, especializado em testes de software e técnicas de análise relacionadas.

Kailong Wang é professor associado na Universidade de Ciência e Tecnologia de Huazhong, com foco de pesquisa em segurança de modelos em larga escala e segurança de aplicativos móveis e proteção de privacidade.

Ying Zhang, atualmente engenheiro de segurança no LinkedIn, obteve um Ph.D. na Virginia Tech, especializando-se em engenharia de software, análise de linguagem estática e segurança da cadeia de suprimentos de software.

Li Zefeng é um estudante de pós-graduação do primeiro ano na Universidade Tecnológica de Nanyang, especializando-se no campo da segurança de modelos em larga escala.

Haoyu Wang é professor na Universidade de Ciência e Tecnologia de Huazhong, cuja pesquisa abrange análise de programas, segurança móvel, blockchain e segurança Web3.

Tianwei Zhang é professor assistente na Escola de Ciência da Computação da Universidade Tecnológica de Nanyang, principalmente envolvido em pesquisas sobre segurança de inteligência artificial e segurança de sistemas.

Liu Yang é professor da Escola de Ciência da Computação, Diretor do Laboratório de Segurança Cibernética da Universidade Tecnológica de Nanyang e Diretor do Escritório de Pesquisa de Segurança Cibernética de Cingapura, com interesses de pesquisa em engenharia de software, segurança cibernética e inteligência artificial.

Recursos:

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)