NTU Huakeらによる最新の研究:完全に自動化された「プロンプト脱獄」、ビッグモデルだけがビッグモデルを倒すことができます! 安全会議NDSSの頂点に登る

出典:新志源

画像ソース: Unbounded AIによって生成

今年は、ネチズンから冗談めかして「おばあちゃんの抜け穴」と呼ばれた大規模言語モデルの「脱獄」手法が燃えていると言えます。

簡単に言うと、正義の言葉に拒絶されてしまうようなニーズに対しては、ChatGPTに「亡くなったおばあちゃんの役を演じて」と頼むなど、言葉を包めば、きっと満足してくれるでしょう。

しかし、サービスプロバイダーがセキュリティ対策を更新および強化し続けるにつれて、ジェイルブレイク攻撃はますます困難になっています。

同時に、これらのチャットボットは「ブラックボックス」として存在するため、外部のセキュリティアナリストは、これらのモデルの意思決定プロセスと潜在的なセキュリティリスクを評価および理解することが非常に困難になります。

この問題に対応して、南洋理工大学、華中科技大学、ニューサウスウェールズ大学の共同研究チームは、より正確で効率的なセキュリティ対策を講じるために、運用中にモデルに発生する可能性のあるセキュリティ上の欠陥を明らかにすることを目的として、自動生成されたプロンプトを使用して、いくつかの大手メーカーのLLMを初めて「解読」することに成功しました。

現在、この研究は、世界4大セキュリティ会議の1つであるNetwork and Distributed Systems Security Symposium(NDSS)に採択されています。

論文リンク集:

プロジェクトリンク:

魔法で魔法を倒す:全自動「脱獄」チャットボット

まず、著者は、脱獄攻撃の潜在的な落とし穴と現在の防御を実証研究を通じて掘り下げています。 例えば、LLMチャットボットのサービスプロバイダが設定した利用仕様書などです。

調査の結果、OpenAI、Google Bard、Bing Chat、Ernieを含む4つの主要なLLMチャットボットプロバイダーが、違法情報、有害なコンテンツ、権利を侵害するコンテンツ、アダルトコンテンツの4種類の情報の出力に制限を設けていることがわかりました。

2つ目の実証的研究課題は、商用LLMチャットボットが使用する既存の脱獄プロンプトの有用性に焦点を当てています。

著者らは、4つの有名なチャットボットを選択し、さまざまなチャネルからの85の効果的な脱獄プロンプトでテストしました。

無作為性を最小限にとどめ、包括的な評価を確実にするために、著者らは各質問に対して10回のテストを行い、合計68,000回のテストを手作業でチェックした。

具体的には、テスト内容は、5つの質問、4つの禁止シナリオ、85の脱獄プロンプト、および4つのモデルでそれぞれ10ラウンドのテストで構成されていました。

テスト結果(表IIを参照)は、既存の脱獄プロンプトのほとんどが主にChatGPTに対して有効であることを示しています。

実証研究から、著者らは、チャットボットサービスプロバイダーが対応する防御戦略を採用したために、一部の脱獄攻撃が失敗したことを発見しました。

この知見から、著者らは、サービスプロバイダーが採用している特定の防御方法を推測し、それに応じて標的型攻撃戦略を設計するために、「MasterKey」と呼ばれるリバースエンジニアリングフレームワークを提案しました。

著者らは、さまざまな攻撃失敗事例の応答時間を分析し、ネットワークサービスにおけるSQL攻撃の経験を利用することで、チャットボットサービスプロバイダーの内部構造と動作メカニズムを推測することに成功しました。

上の図に示されているように、彼は、テキストセマンティクスまたはキーワードマッチングに基づく生成コンテンツ検出メカニズムがサービスプロバイダー内に存在すると考えています。

具体的には、著者は情報の3つの主要な側面に焦点を当てています。

まず、入力、出力、またはその両方のフェーズで防御メカニズムを検討します(下の図bを参照)。

第2に、防御メカニズムが生成プロセス中に動的に監視されるか、生成完了後に動的に監視されるかです(下の図Cを参照)。

最後に、防御メカニズムがキーワード検出に基づいているのか、セマンティック分析に基づいているのかを検討します(下の図Dを参照)。

一連の体系的な実験の後、著者らはさらに、Bing ChatとBardは、入力プロンプトの段階ではなく、モデルが結果を生成する段階で脱獄防止チェックを主に実行することを発見しました。 同時に、生成プロセス全体を動的に監視し、キーワードマッチングとセマンティック分析の機能を持つことができます。

チャットボットプロバイダーの防御戦略を詳細に分析した後、著者は「魔法」で「魔法」に対抗するための重要なステップとして説明できる、革新的な大規模モデルベースの脱獄プロンプトワード生成戦略を提案します。

下図に示すように、具体的なプロセスは次のとおりです。

まず、ChatGPT の防御をうまく回避できる一連のプロンプト ワードを選択します。

次に、継続的なトレーニングとタスク指向の微調整により、以前に見つかった脱獄プロンプトを書き換えることができる大規模なモデルが作成されます。

最後に、このモデルはさらに最適化され、サービスプロバイダーの防御メカニズムを規制するために使用できる高品質の脱獄プロンプトが生成されます。

最後に、一連の体系的な実験を通じて、著者らは、提案された方法が脱獄攻撃の成功率を大幅に向上させることができることを示しています。

特に、これはBardとBingチャットを体系的かつ首尾よく攻撃した最初の研究です。

これに加えて、著者は、ユーザー入力段階での分析やフィルタリングの推奨事項など、チャットボットの行動コンプライアンスに関するいくつかの推奨事項も行っています。

今後の作業

この研究では、著者はチャットボットを「脱獄」する方法を探ります。

もちろん、究極のビジョンは、正直でフレンドリーなロボットを作ることです。

これは困難な作業であり、著者はツールを手に取り、一緒に研究を深く掘り下げることを勧めています。

著者について

南洋理工大学の博士課程4年生であるDeng Gray氏は、システムセキュリティに焦点を当てたこの論文の共同筆頭著者です。

南洋理工大学の博士課程4年生で、この論文の共同筆頭著者であるYi Liu氏は、大規模モデルのセキュリティとソフトウェアテストに焦点を当てています。

ニューサウスウェールズ大学の講師(助教授)であるYuekang Li氏は、ソフトウェアテストと関連する分析手法を専門とするこの論文の責任著者です。

Kailong Wang は、華中科技大学の准教授であり、大規模モデルセキュリティとモバイルアプリケーションセキュリティおよびプライバシー保護に焦点を当てた研究を行っています。

現在LinkedInでセキュリティエンジニアとして働いているYing Zhangは、バージニア工科大学でソフトウェアエンジニアリング、静的言語分析、ソフトウェアサプライチェーンセキュリティを専門に博士号を取得しています。

李沢峰は南洋理工大学の大学院1年生で、大規模モデルセキュリティの分野を専門としています。

Haoyu Wang氏は、華中科技大学の教授であり、プログラム分析、モバイルセキュリティ、ブロックチェーン、Web3セキュリティを研究対象としています。

Tianwei Zhangは、南洋理工大学コンピュータサイエンス学部の助教授であり、主に人工知能セキュリティとシステムセキュリティの研究に従事しています。

Liu Yang は、ソフトウェア工学、サイバーセキュリティ、人工知能を専門とする、南洋理工大学のコンピュータサイエンス学部の教授、サイバーセキュリティ研究所の所長、シンガポールのサイバーセキュリティ研究室の所長を務めています。

リソース:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし