Penelitian terbaru oleh NTU Huake dan lainnya: "jailbreak cepat" yang sepenuhnya otomatis, hanya model besar yang dapat mengalahkan model besar! Naiklah ke puncak pertemuan keselamatan NDSS

Sumber asli: Zhiyuan Baru

Sumber gambar: Dihasilkan oleh Unbounded AI

Tahun ini, metode “jailbreak” dari model bahasa besar, yang bercanda disebut “celah nenek” oleh netizen, bisa dikatakan terbakar.

Sederhananya, untuk kebutuhan yang akan ditolak oleh kata-kata yang benar, bungkus kata-kata, seperti meminta ChatGPT untuk “memainkan peran sebagai nenek yang sudah meninggal”, dan kemungkinan besar itu akan memuaskan Anda.

Namun, karena penyedia layanan terus memperbarui dan memperkuat langkah-langkah keamanan mereka, serangan jailbreaking menjadi semakin sulit.

Pada saat yang sama, karena chatbots ini ada sebagai “kotak hitam”, analis keamanan eksternal menghadapi kesulitan besar dalam mengevaluasi dan memahami proses pengambilan keputusan dari model-model ini dan potensi risiko keamanan.

Menanggapi masalah ini, tim peneliti yang terdiri dari Universitas Teknologi Nanyang, Universitas Sains dan Teknologi Huazhong, dan Universitas New South Wales telah berhasil “memecahkan” LLM dari beberapa produsen besar untuk pertama kalinya menggunakan petunjuk yang dibuat secara otomatis, dengan tujuan mengungkapkan kemungkinan kelemahan keamanan dalam model selama operasi, sehingga dapat mengambil langkah-langkah keamanan yang lebih akurat dan efisien.

Saat ini, penelitian ini telah diterima oleh Network and Distributed Systems Security Symposium (NDSS), salah satu dari empat konferensi keamanan teratas dunia.

Tautan Kertas:

Tautan Proyek:

** Kalahkan Magic dengan Magic: Chatbot “Jailbreak” Sepenuhnya Otomatis **

Pertama, penulis menggali potensi jebakan serangan jailbreak dan pertahanan saat ini melalui studi empiris. Misalnya, spesifikasi penggunaan yang ditetapkan oleh penyedia layanan chatbots LLM.

Setelah menyelidiki, penulis menemukan bahwa empat penyedia chatbot LLM utama, termasuk OpenAI, Google Bard, Bing Chat, dan Ernie, memiliki batasan pada output dari empat jenis informasi: informasi ilegal, konten berbahaya, konten yang melanggar hak, dan konten dewasa.

Pertanyaan penelitian empiris kedua berfokus pada kegunaan petunjuk jailbreak yang ada yang digunakan oleh chatbots LLM komersial.

Para penulis memilih 4 chatbots terkenal dan mengujinya dengan 85 petunjuk jailbreak yang efektif dari saluran yang berbeda.

Untuk meminimalkan keacakan dan memastikan evaluasi yang komprehensif, penulis melakukan 10 putaran pengujian untuk setiap pertanyaan, dengan total 68.000 tes, dengan pemeriksaan manual.

Secara khusus, konten pengujian terdiri dari 5 pertanyaan, 4 skenario terlarang, dan 85 petunjuk jailbreak, dan 10 putaran pengujian masing-masing pada 4 model.

Hasil tes (lihat Tabel II) menunjukkan bahwa sebagian besar permintaan jailbreak yang ada terutama berlaku untuk ChatGPT.

Dari penelitian empiris, penulis menemukan bahwa beberapa serangan jailbreak gagal karena penyedia layanan chatbot mengadopsi strategi pertahanan yang sesuai.

Temuan ini mengarahkan penulis untuk mengusulkan kerangka rekayasa balik yang disebut “MasterKey” untuk menebak metode pertahanan spesifik yang diadopsi oleh penyedia layanan dan merancang strategi serangan yang ditargetkan sesuai dengan itu.

Dengan menganalisis waktu respons dari berbagai kasus kegagalan serangan dan memanfaatkan pengalaman serangan SQL dalam layanan jaringan, penulis berhasil berspekulasi tentang struktur internal dan mekanisme kerja penyedia layanan chatbot.

Seperti yang ditunjukkan pada diagram di atas, ia percaya bahwa ada mekanisme deteksi konten generatif dalam penyedia layanan berdasarkan semantik teks atau pencocokan kata kunci.

Secara khusus, penulis berfokus pada tiga aspek utama informasi:

Pertama, mekanisme pertahanan dieksplorasi dalam input, output, atau kedua fase (lihat Gambar b di bawah);

Kedua, apakah mekanisme pertahanan dipantau secara dinamis selama proses pembangkitan atau setelah pembangkitan selesai (lihat Gambar C di bawah).

Akhirnya, apakah mekanisme pertahanan didasarkan pada deteksi kata kunci atau analisis semantik dieksplorasi (lihat Gambar D di bawah).

Setelah serangkaian percobaan sistematis, penulis lebih lanjut menemukan bahwa Bing Chat dan Bard terutama melakukan pemeriksaan pencegahan jailbreak pada tahap ketika model menghasilkan hasil, bukan pada tahap input prompt. Pada saat yang sama, mereka dapat secara dinamis memantau seluruh proses pembuatan dan memiliki fungsi pencocokan kata kunci dan analisis semantik.

Setelah analisis mendalam tentang strategi pertahanan penyedia chatbot, penulis kemudian mengusulkan strategi pembuatan kata cepat jailbreak berbasis model skala besar yang inovatif, yang dapat digambarkan sebagai langkah kunci dalam melawan “sihir” dengan “sihir”!

Seperti yang ditunjukkan pada gambar di bawah ini, proses spesifiknya adalah sebagai berikut:

Pertama, pilih serangkaian kata cepat yang berhasil melewati pertahanan ChatGPT;

Kemudian, melalui pelatihan berkelanjutan dan penyetelan berorientasi tugas, model besar dibuat yang mampu menulis ulang petunjuk jailbreak yang ditemukan sebelumnya;

Akhirnya, model ini dioptimalkan lebih lanjut untuk menghasilkan permintaan jailbreak berkualitas tinggi yang dapat digunakan untuk mengatur mekanisme pertahanan penyedia layanan.

Akhirnya, melalui serangkaian percobaan sistematis, penulis menunjukkan bahwa metode yang diusulkan dapat secara signifikan meningkatkan tingkat keberhasilan serangan jailbreak.

Secara khusus, ini adalah studi pertama yang secara sistematis dan berhasil menyerang Bard dan Bing Chat.

Selain itu, penulis juga membuat beberapa rekomendasi untuk kepatuhan perilaku chatbot, seperti rekomendasi untuk analisis dan penyaringan pada tahap input pengguna.

Pekerjaan Masa Depan

Dalam studi ini, penulis mengeksplorasi cara “jailbreak” chatbot!

Visi utamanya, tentu saja, adalah menciptakan robot yang jujur dan ramah.

Ini adalah tugas yang menantang, dan penulis mengundang Anda untuk mengambil alat dan bekerja sama untuk menggali lebih dalam penelitian bersama!

Tentang Penulis

Deng Gray, seorang mahasiswa PhD tahun keempat di Nanyang Technological University, adalah rekan penulis pertama makalah ini, dengan fokus pada keamanan sistem.

Yi Liu, seorang mahasiswa PhD tahun keempat di Nanyang Technological University dan rekan penulis pertama makalah ini, berfokus pada keamanan dan pengujian perangkat lunak model skala besar.

Yuekang Li, seorang dosen (asisten profesor) di University of New South Wales, adalah penulis yang sesuai dari makalah ini, yang mengkhususkan diri dalam pengujian perangkat lunak dan teknik analisis terkait.

Kailong Wang adalah profesor di Universitas Sains dan Teknologi Huazhong, dengan fokus penelitian pada keamanan model skala besar dan keamanan aplikasi seluler serta perlindungan privasi.

Ying Zhang, saat ini seorang insinyur keamanan di LinkedIn, memperoleh gelar Ph.D. di Virginia Tech, yang mengkhususkan diri dalam rekayasa perangkat lunak, analisis bahasa statis, dan keamanan rantai pasokan perangkat lunak.

Li Zefeng adalah mahasiswa pascasarjana tahun pertama di Universitas Teknologi Nanyang, yang mengkhususkan diri dalam bidang keamanan model skala besar.

Haoyu Wang adalah seorang profesor di Universitas Sains dan Teknologi Huazhong, yang penelitiannya mencakup analisis program, keamanan seluler, blockchain, dan keamanan Web3.

Tianwei Zhang adalah asisten profesor di Sekolah Ilmu Komputer di Universitas Teknologi Nanyang, terutama terlibat dalam penelitian tentang keamanan kecerdasan buatan dan keamanan sistem.

Liu Yang adalah seorang profesor di School of Computer Science, Direktur Cyber Security Lab di Nanyang Technological University, dan Direktur Cyber Security Research Office of Singapore, dengan minat penelitian dalam rekayasa perangkat lunak, keamanan cyber dan kecerdasan buatan.

Sumber daya:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)