NTU華科等最新研究：全自動化「提示越獄」，能打敗大模型的只有大模型！登安全頂會NDSS

巴比特_

2023-11-02 09:14:20

原文來源：新智元

圖片來源：由無界 AI生成

今年，被網友戲稱為「奶奶漏洞」的大語言模型「越獄」方法，可以說是火了火。

簡單來說，對於那些會被義正言辭拒絕的需求，包裝一下話術，比如讓ChatGPT「扮演已經過世的祖母」，它大概率就會滿足你了。

不過，隨著服務提供者不斷地更新和強化安全措施，越獄攻擊的難度也不斷提高。

與此同時，由於這些聊天機器人多作為一個「黑箱」存在，使得外部安全分析人員在評估和理解這些模型的決策過程以及潛在的安全隱患方面面臨巨大困難。

針對這一問題，南洋理工大學、華中科技大學、新南威爾士大學等聯合組成的研究團隊，首次使用自動生成的提示詞成功「破解」了多家大廠的LLM，目的是揭示模型在運行時可能的安全缺陷，以便採取更精確和高效的安全措施。

目前，該研究已被全球四大安全頂級會議之一的網路與分散式系統安全研討會（NDSS）接收。

論文連結：

項目連結：

用魔法打敗魔法：全自動「越獄」聊天機器人

首先，作者通過一項實證研究，深入探討了越獄攻擊可能帶來的隱患以及現行的防禦手段。比如，LLM聊天機器人的服務商所制定的使用規範。

經過調查，作者發現，包括OpenAI、Google Bard、Bing Chat和Ernie在內的4家主要的LLM聊天機器人供應商都設有限制，禁止輸出以下4種資訊：違法資訊、有害內容、侵犯權利的內容以及成人內容。

第二個實證研究問題關注的是商業LLM聊天機器人所使用的現有越獄提示詞的實用性。

作者選取了4個著名的聊天機器人，並對它們用85個來自不同管道的有效越獄提示詞進行了測試。

為了最大限度減少隨機性並確保全面的評估，作者對每個問題進行了10輪測試，總共累計進行了68,000次測試，並進行了人工校驗。

具體來說，測試內容包括5個問題、4個禁止的場景、85個越獄提示詞，分別在4個模型上進行了10輪測試。

測試結果（見Table II）表明，大多數現有的越獄提示詞主要對ChatGPT有效。

從實證研究中，作者發現部分越獄攻擊之所以未能成功，是因為聊天機器人的服務提供者採納了相應的防禦策略。

這一發現促使作者提出了一個名為「MasterKey」的反向工程框架，以便猜測服務商採用的具體防禦方法，並據此設計有針對性的攻擊策略。

作者通過分析不同攻擊失敗案例的回應時間，並借鑒網路服務中的SQL攻擊經驗，成功推測了聊天機器人服務提供者的內部結構和工作機制。

如上圖所示，他認為服務提供者的內部存在一種基於文本語義或關鍵詞匹配的生成內容檢測機制。

具體來講，作者主要關注了三個方面的資訊：

首先，探討了防禦機制是在輸入、輸出階段還是兩者都有進行的（見下圖b）;

其次，分析了防禦機制是在生成過程中動態進行監測，還是在生成結束後進行的（見下圖c）;

最後，探究了防禦機制是基於關鍵詞檢測還是基於語義分析的（見下圖d）。

經過一系列系統性的實驗，作者進一步發現Bing Chat和Bard主要是在模型生成結果的階段進行越獄預防檢查，而不是在輸入提示的階段; 同時，它們能夠動態監測整個生成過程，並具備關鍵詞匹配和語義分析的功能。

在深入分析了聊天機器人供應商的防禦策略後，作者緊接著提出了一種創新的基於大型模型的越獄提示詞生成策略，這可謂是用「魔法」對抗「魔法」的關鍵步驟！

如下圖展示，具體流程為：

首先，挑選出一組能夠成功繞過ChatGPT防禦的提示詞;

接著，通過持續的訓練和任務導向的微調來創建一個大型模型，該模型能夠重新編寫之前找到的越獄提示詞;

最後，進一步優化這個模型，使其能夠生成高品質、能夠規遍服務商防禦機制的越獄提示詞。

最後，作者通過一系列系統性的實驗表明，所提出的方法能顯著提升越獄攻擊的成功率。

值得特別指出的是，這是首個系統性地成功對Bard和Bing Chat進行攻擊的研究。

除此之外，作者還針對聊天機器人的行為合規性提出了一些建議，比如建議在使用者輸入階段進行分析和過濾。

未來的工作

在本研究中，作者們探索了如何「越獄」聊天機器人！

當然，最終願景是打造一個既誠實又友好的機器人。

這是一個頗具挑戰的任務，作者們誠邀你拿起工具，共同努力，一起深挖研究之路！

作者簡介

鄧格雷，南洋理工大學博士四年級學生，本文共同第一作者，專注於系統安全的研究。

劉藝，同為南洋理工大學博士四年級學生及本文共同第一作者，研究重點包括大型模型的安全和軟體測試等。

李悅康，任職於新南威爾士大學的講師（助理教授），本文的通訊作者，擅長軟體測試和相關分析技術的研究。

王凱龍，華中科技大學副教授，研究方向聚焦於大模型安全、移動應用的安全與隱私保護。

張贏，現任領英安全工程師，曾在弗吉尼亞理工攻讀博士學位，專業領域包括軟體工程、靜態語言分析和軟體供應鏈安全。

李澤豐，南洋理工大學研究生一年級學生，主攻大模型安全領域的研究。

王浩宇，華中科技大學教授，研究涵蓋程式分析、移動安全、區塊鏈及Web3安全等。

張天威，南洋理工大學計算機學院助理教授，主要從事人工智慧安全和系統安全的研究。

劉楊，南洋理工大學計算機學院教授、網路安全實驗室主任以及新加坡網路安全研究辦公室主任，研究領域包括軟體工程、網路安全和人工智慧。

參考資料：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

巴比特_

從AI Grant 開始，看Nat Friedman 與Daniel Gross 如何投出美國人工智能的半壁江山

2023-08-28 06:36

AI自主智能體大盤點，構建、應用、評估全覆蓋，人大高瓴文繼榮等32頁綜述

2023-08-28 06:23

熱門話題
查看更多
#
GateFun馬勒戈幣暴漲1251.09%
2.19萬熱度
#
Gate廣場創作者新春激勵
4.68萬熱度
#
非農就業數據
1.49萬熱度
#
每日行情分析
1.08萬熱度
#
市場觸底了嗎？
3.88萬熱度

熱門 Gate Fun
查看更多

1
老子打飞机
老子打飞机
市值:$3548.27持有人數:0
0.00%
2
我踏马打飞机
我踏马打飞机
市值:$3544.82持有人數:0
0.00%
3
马
马
市值:$2.02萬持有人數:2
56.35%
4
打飞机
打飞机
市值:$3544.82持有人數:1
0.00%
5
我踏马来迟了
我踏马来迟了
市值:$0.1持有人數:1
0.00%

NTU華科等最新研究：全自動化「提示越獄」，能打敗大模型的只有大模型！ 登安全頂會NDSS

未來的工作

作者簡介

熱門話題

GateFun馬勒戈幣暴漲1251.09%

Gate廣場創作者新春激勵

非農就業數據

每日行情分析

市場觸底了嗎？

熱門 Gate Fun

老子打飞机

老子打飞机

我踏马打飞机

我踏马打飞机

马

马

打飞机

打飞机

我踏马来迟了

我踏马来迟了

置頂

NTU華科等最新研究：全自動化「提示越獄」，能打敗大模型的只有大模型！登安全頂會NDSS