Gate 廣場創作者新春激勵正式開啟,發帖解鎖 $60,000 豪華獎池
如何參與:
報名活動表單:https://www.gate.com/questionnaire/7315
使用廣場任意發帖小工具,搭配文字發布內容即可
豐厚獎勵一覽:
發帖即可可瓜分 $25,000 獎池
10 位幸運用戶:獲得 1 GT + Gate 鸭舌帽
Top 發帖獎勵:發帖與互動越多,排名越高,贏取 Gate 新年周邊、Gate 雙肩包等好禮
新手專屬福利:首帖即得 $50 獎勵,繼續發帖还能瓜分 $10,000 新手獎池
活動時間:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49112
NTU華科等最新研究:全自動化「提示越獄」,能打敗大模型的只有大模型! 登安全頂會NDSS
原文來源:新智元
今年,被網友戲稱為「奶奶漏洞」的大語言模型「越獄」方法,可以說是火了火。
簡單來說,對於那些會被義正言辭拒絕的需求,包裝一下話術,比如讓ChatGPT「扮演已經過世的祖母」,它大概率就會滿足你了。
與此同時,由於這些聊天機器人多作為一個「黑箱」存在,使得外部安全分析人員在評估和理解這些模型的決策過程以及潛在的安全隱患方面面臨巨大困難。
針對這一問題,南洋理工大學、華中科技大學、新南威爾士大學等聯合組成的研究團隊,首次使用自動生成的提示詞成功「破解」了多家大廠的LLM,目的是揭示模型在運行時可能的安全缺陷,以便採取更精確和高效的安全措施。
目前,該研究已被全球四大安全頂級會議之一的網路與分散式系統安全研討會(NDSS)接收。
項目連結:
用魔法打敗魔法:全自動「越獄」聊天機器人
首先,作者通過一項實證研究,深入探討了越獄攻擊可能帶來的隱患以及現行的防禦手段。 比如,LLM聊天機器人的服務商所制定的使用規範。
經過調查,作者發現,包括OpenAI、Google Bard、Bing Chat和Ernie在內的4家主要的LLM聊天機器人供應商都設有限制,禁止輸出以下4種資訊:違法資訊、有害內容、侵犯權利的內容以及成人內容。
作者選取了4個著名的聊天機器人,並對它們用85個來自不同管道的有效越獄提示詞進行了測試。
為了最大限度減少隨機性並確保全面的評估,作者對每個問題進行了10輪測試,總共累計進行了68,000次測試,並進行了人工校驗。
具體來說,測試內容包括5個問題、4個禁止的場景、85個越獄提示詞,分別在4個模型上進行了10輪測試。
測試結果(見Table II)表明,大多數現有的越獄提示詞主要對ChatGPT有效。
這一發現促使作者提出了一個名為「MasterKey」的反向工程框架,以便猜測服務商採用的具體防禦方法,並據此設計有針對性的攻擊策略。
作者通過分析不同攻擊失敗案例的回應時間,並借鑒網路服務中的SQL攻擊經驗,成功推測了聊天機器人服務提供者的內部結構和工作機制。
具體來講,作者主要關注了三個方面的資訊:
首先,探討了防禦機制是在輸入、輸出階段還是兩者都有進行的(見下圖b);
其次,分析了防禦機制是在生成過程中動態進行監測,還是在生成結束後進行的(見下圖c);
最後,探究了防禦機制是基於關鍵詞檢測還是基於語義分析的(見下圖d)。
經過一系列系統性的實驗,作者進一步發現Bing Chat和Bard主要是在模型生成結果的階段進行越獄預防檢查,而不是在輸入提示的階段; 同時,它們能夠動態監測整個生成過程,並具備關鍵詞匹配和語義分析的功能。
如下圖展示,具體流程為:
首先,挑選出一組能夠成功繞過ChatGPT防禦的提示詞;
接著,通過持續的訓練和任務導向的微調來創建一個大型模型,該模型能夠重新編寫之前找到的越獄提示詞;
最後,進一步優化這個模型,使其能夠生成高品質、能夠規遍服務商防禦機制的越獄提示詞。
值得特別指出的是,這是首個系統性地成功對Bard和Bing Chat進行攻擊的研究。
除此之外,作者還針對聊天機器人的行為合規性提出了一些建議,比如建議在使用者輸入階段進行分析和過濾。
未來的工作
在本研究中,作者們探索了如何「越獄」聊天機器人!
當然,最終願景是打造一個既誠實又友好的機器人。
這是一個頗具挑戰的任務,作者們誠邀你拿起工具,共同努力,一起深挖研究之路!
作者簡介
鄧格雷,南洋理工大學博士四年級學生,本文共同第一作者,專注於系統安全的研究。
劉藝,同為南洋理工大學博士四年級學生及本文共同第一作者,研究重點包括大型模型的安全和軟體測試等。
李悅康,任職於新南威爾士大學的講師(助理教授),本文的通訊作者,擅長軟體測試和相關分析技術的研究。
王凱龍,華中科技大學副教授,研究方向聚焦於大模型安全、移動應用的安全與隱私保護。
張贏,現任領英安全工程師,曾在弗吉尼亞理工攻讀博士學位,專業領域包括軟體工程、靜態語言分析和軟體供應鏈安全。
李澤豐,南洋理工大學研究生一年級學生,主攻大模型安全領域的研究。
王浩宇,華中科技大學教授,研究涵蓋程式分析、移動安全、區塊鏈及Web3安全等。
張天威,南洋理工大學計算機學院助理教授,主要從事人工智慧安全和系統安全的研究。
劉楊,南洋理工大學計算機學院教授、網路安全實驗室主任以及新加坡網路安全研究辦公室主任,研究領域包括軟體工程、網路安全和人工智慧。
參考資料: