أحدث الأبحاث التي أجراها NTU Huake وآخرون: مؤتمتة بالكامل "كسر الحماية الفوري" ، فقط النموذج الكبير يمكنه هزيمة النموذج الكبير! الصعود إلى قمة اجتماع السلامة NDSS
مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
هذا العام ، يمكن القول إن طريقة “الهروب من السجن” لنموذج اللغة الكبيرة ، والتي أطلق عليها مستخدمو الإنترنت مازحا “ثغرة الجدة” ، مشتعلة.
ببساطة ، بالنسبة لتلك الاحتياجات التي سترفضها الكلمات الصالحة ، اختتم الكلمات ، مثل مطالبة ChatGPT “بلعب دور الجدة المتوفاة” ، ومن المرجح أن ترضيك.
ومع ذلك ، مع استمرار مزودي الخدمة في تحديث وتعزيز إجراءاتهم الأمنية ، تصبح هجمات كسر الحماية صعبة بشكل متزايد.
في الوقت نفسه ، نظرا لوجود روبوتات المحادثة هذه ك “صندوق أسود” ، يواجه محللو الأمن الخارجيون صعوبات كبيرة في تقييم وفهم عملية صنع القرار لهذه النماذج والمخاطر الأمنية المحتملة.
استجابة لهذه المشكلة ، نجح فريق بحث مؤلف بشكل مشترك من جامعة نانيانغ التكنولوجية وجامعة هواتشونغ للعلوم والتكنولوجيا وجامعة نيو ساوث ويلز في “تصدع” LLMs للعديد من الشركات المصنعة الكبيرة لأول مرة باستخدام مطالبات تم إنشاؤها تلقائيا ، بهدف الكشف عن العيوب الأمنية المحتملة في النموذج أثناء التشغيل ، وذلك لاتخاذ تدابير أمنية أكثر دقة وكفاءة.
حاليا ، تم قبول البحث من قبل ندوة أمن الشبكات والأنظمة الموزعة (NDSS) ، أحد أكبر أربعة مؤتمرات أمنية في العالم.
روابط الورق:
روابط المشروع:
** هزيمة السحر مع السحر: التلقائي بالكامل “الهروب من السجن” chatbot **
أولا ، يتعمق المؤلف في المزالق المحتملة لهجمات الهروب من السجن والدفاعات الحالية من خلال دراسة تجريبية. على سبيل المثال ، مواصفات الاستخدام التي حددها مزود خدمة روبوتات المحادثة LLM.
بعد التحقيق ، وجد المؤلفون أن أربعة من مزودي روبوتات الدردشة الرئيسيين في LLM ، بما في ذلك OpenAI و Google Bard و Bing Chat و Ernie ، لديهم قيود على إخراج أربعة أنواع من المعلومات: المعلومات غير القانونية ، والمحتوى الضار ، والمحتوى الذي ينتهك الحقوق ، ومحتوى البالغين.
يركز سؤال البحث التجريبي الثاني على فائدة مطالبات كسر الحماية الحالية التي تستخدمها روبوتات الدردشة التجارية LLM.
اختار المؤلفون 4 روبوتات محادثة معروفة واختبروها باستخدام 85 مطالبة فعالة لكسر الحماية من قنوات مختلفة.
لتقليل العشوائية وضمان إجراء تقييم شامل ، أجرى المؤلفون 10 جولات من الاختبار لكل سؤال ، ليصبح المجموع 68000 اختبار ، مع فحوصات يدوية.
على وجه التحديد ، يتكون محتوى الاختبار من 5 أسئلة و 4 سيناريوهات محظورة و 85 مطالبة بكسر الحماية و 10 جولات من الاختبار على 4 نماذج لكل منها.
تظهر نتائج الاختبار (انظر الجدول الثاني) أن معظم مطالبات كسر الحماية الحالية صالحة بشكل أساسي ل ChatGPT.
من البحث التجريبي ، وجد المؤلفون أن بعض هجمات كسر الحماية فشلت لأن مزود خدمة chatbot اعتمد استراتيجية دفاعية مقابلة.
قادت هذه النتيجة المؤلفين إلى اقتراح إطار عمل هندسي عكسي يسمى “MasterKey” من أجل تخمين طرق الدفاع المحددة التي اعتمدها مقدمو الخدمات وتصميم استراتيجيات الهجوم المستهدفة وفقا لذلك.
من خلال تحليل وقت الاستجابة لحالات فشل الهجوم المختلفة والاعتماد على تجربة هجمات SQL في خدمات الشبكة ، نجح المؤلفون في التكهن بالهيكل الداخلي وآلية عمل مزودي خدمة chatbot.
كما هو موضح في الرسم البياني أعلاه ، يعتقد أن هناك آلية للكشف عن المحتوى التوليدي داخل مزود الخدمة بناء على دلالات النص أو مطابقة الكلمات الرئيسية.
على وجه التحديد ، يركز المؤلف على ثلاثة جوانب رئيسية للمعلومات:
أولا ، يتم استكشاف آلية الدفاع في المدخلات أو المخرجات أو كلتا المرحلتين (انظر الشكل ب أدناه) ؛
ثانيا ، ما إذا كانت آلية الدفاع تتم مراقبتها ديناميكيا أثناء عملية التوليد أو بعد اكتمال التوليد (انظر الشكل ج أدناه).
أخيرا ، يتم استكشاف ما إذا كانت آلية الدفاع تعتمد على اكتشاف الكلمات الرئيسية أو التحليل الدلالي (انظر الشكل د أدناه).
بعد سلسلة من التجارب المنهجية ، وجد المؤلفون أيضا أن Bing Chat و Bard يقومان بشكل أساسي بإجراء فحوصات منع كسر الحماية في المرحلة التي يولد فيها النموذج النتائج ، بدلا من مرحلة مطالبات الإدخال. في الوقت نفسه ، يمكنهم مراقبة عملية التوليد بأكملها ديناميكيا ولديهم وظائف مطابقة الكلمات الرئيسية والتحليل الدلالي.
بعد تحليل متعمق لاستراتيجية الدفاع الخاصة بمزود chatbot ، يقترح المؤلف بعد ذلك إستراتيجية مبتكرة واسعة النطاق لتوليد الكلمات السريعة المستندة إلى نموذج الهروب من السجن ، والتي يمكن وصفها بأنها خطوة رئيسية في مواجهة “السحر” ب “السحر”!
كما هو موضح في الشكل أدناه ، فإن العملية المحددة هي كما يلي:
أولا ، اختر مجموعة من الكلمات السريعة التي يمكنها تجاوز دفاعات ChatGPT بنجاح ؛
بعد ذلك ، من خلال التدريب المستمر والضبط الدقيق الموجه نحو المهام ، يتم إنشاء نموذج كبير قادر على إعادة كتابة مطالبات كسر الحماية التي تم العثور عليها مسبقا ؛
أخيرا ، تم تحسين النموذج بشكل أكبر لإنشاء مطالبات جيلبريك عالية الجودة يمكن استخدامها لتنظيم آلية الدفاع لمزود الخدمة.
أخيرا ، من خلال سلسلة من التجارب المنهجية ، أظهر المؤلفون أن الطريقة المقترحة يمكن أن تحسن بشكل كبير معدل نجاح هجمات كسر الحماية.
على وجه الخصوص ، هذه هي الدراسة الأولى التي تهاجم بشكل منهجي وناجح Bard و Bing Chat.
بالإضافة إلى ذلك ، يقدم المؤلفون أيضا بعض التوصيات للامتثال لسلوك chatbot ، مثل توصيات التحليل والتصفية في مرحلة إدخال المستخدم.
العمل في المستقبل
في هذه الدراسة ، يستكشف المؤلفون كيفية “كسر حماية” روبوت المحادثة!
الرؤية النهائية ، بالطبع ، هي إنشاء روبوت صادق وودود.
هذه مهمة صعبة ، ويدعوك المؤلفون لالتقاط الأدوات والعمل معا للتعمق في البحث معا!
نبذة عن الكاتب
دينغ غراي، طالب دكتوراه في السنة الرابعة في جامعة نانيانغ التكنولوجية، هو المؤلف الأول المشارك لهذه الورقة، مع التركيز على أمن النظام.
يركز يي ليو ، طالب الدكتوراه في السنة الرابعة في جامعة نانيانغ التكنولوجية والمؤلف الأول المشارك لهذه الورقة ، على اختبار الأمان والبرمجيات للنماذج واسعة النطاق.
Yuekang Li ، محاضر (أستاذ مساعد) في جامعة نيو ساوث ويلز ، هو المؤلف المقابل لهذه الورقة ، وهو متخصص في اختبار البرمجيات وتقنيات التحليل ذات الصلة.
كايلونغ وانغ أستاذ مشارك في جامعة هواتشونغ للعلوم والتكنولوجيا ، مع تركيز بحثي على أمان النموذج على نطاق واسع وأمن تطبيقات الهاتف المحمول وحماية الخصوصية.
حصل Ying Zhang ، وهو حاليا مهندس أمن في LinkedIn ، على درجة الدكتوراه من Virginia Tech ، متخصصا في هندسة البرمجيات وتحليل اللغة الثابتة وأمن سلسلة توريد البرمجيات.
لي تسه فنغ طالب دراسات عليا في السنة الأولى في جامعة نانيانغ التكنولوجية ، متخصص في مجال أمن النماذج على نطاق واسع.
هاويو وانغ هو أستاذ في جامعة هواتشونغ للعلوم والتكنولوجيا ، وتغطي أبحاثه تحليل البرامج وأمن الأجهزة المحمولة و blockchain وأمن Web3.
تيانوي تشانغ هو أستاذ مساعد في كلية علوم الكمبيوتر بجامعة نانيانغ التكنولوجية ، ويشارك بشكل رئيسي في الأبحاث حول أمن الذكاء الاصطناعي وأمن النظام.
ليو يانغ هو أستاذ في كلية علوم الكمبيوتر ، ومدير مختبر الأمن السيبراني في جامعة نانيانغ التكنولوجية ، ومدير مكتب أبحاث الأمن السيبراني في سنغافورة ، مع اهتمامات بحثية في هندسة البرمجيات والأمن السيبراني والذكاء الاصطناعي.
موارد:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أحدث الأبحاث التي أجراها NTU Huake وآخرون: مؤتمتة بالكامل "كسر الحماية الفوري" ، فقط النموذج الكبير يمكنه هزيمة النموذج الكبير! الصعود إلى قمة اجتماع السلامة NDSS
المصدر الأصلي: نيو تشييوان
هذا العام ، يمكن القول إن طريقة “الهروب من السجن” لنموذج اللغة الكبيرة ، والتي أطلق عليها مستخدمو الإنترنت مازحا “ثغرة الجدة” ، مشتعلة.
ببساطة ، بالنسبة لتلك الاحتياجات التي سترفضها الكلمات الصالحة ، اختتم الكلمات ، مثل مطالبة ChatGPT “بلعب دور الجدة المتوفاة” ، ومن المرجح أن ترضيك.
في الوقت نفسه ، نظرا لوجود روبوتات المحادثة هذه ك “صندوق أسود” ، يواجه محللو الأمن الخارجيون صعوبات كبيرة في تقييم وفهم عملية صنع القرار لهذه النماذج والمخاطر الأمنية المحتملة.
استجابة لهذه المشكلة ، نجح فريق بحث مؤلف بشكل مشترك من جامعة نانيانغ التكنولوجية وجامعة هواتشونغ للعلوم والتكنولوجيا وجامعة نيو ساوث ويلز في “تصدع” LLMs للعديد من الشركات المصنعة الكبيرة لأول مرة باستخدام مطالبات تم إنشاؤها تلقائيا ، بهدف الكشف عن العيوب الأمنية المحتملة في النموذج أثناء التشغيل ، وذلك لاتخاذ تدابير أمنية أكثر دقة وكفاءة.
حاليا ، تم قبول البحث من قبل ندوة أمن الشبكات والأنظمة الموزعة (NDSS) ، أحد أكبر أربعة مؤتمرات أمنية في العالم.
روابط المشروع:
** هزيمة السحر مع السحر: التلقائي بالكامل “الهروب من السجن” chatbot **
أولا ، يتعمق المؤلف في المزالق المحتملة لهجمات الهروب من السجن والدفاعات الحالية من خلال دراسة تجريبية. على سبيل المثال ، مواصفات الاستخدام التي حددها مزود خدمة روبوتات المحادثة LLM.
بعد التحقيق ، وجد المؤلفون أن أربعة من مزودي روبوتات الدردشة الرئيسيين في LLM ، بما في ذلك OpenAI و Google Bard و Bing Chat و Ernie ، لديهم قيود على إخراج أربعة أنواع من المعلومات: المعلومات غير القانونية ، والمحتوى الضار ، والمحتوى الذي ينتهك الحقوق ، ومحتوى البالغين.
اختار المؤلفون 4 روبوتات محادثة معروفة واختبروها باستخدام 85 مطالبة فعالة لكسر الحماية من قنوات مختلفة.
لتقليل العشوائية وضمان إجراء تقييم شامل ، أجرى المؤلفون 10 جولات من الاختبار لكل سؤال ، ليصبح المجموع 68000 اختبار ، مع فحوصات يدوية.
على وجه التحديد ، يتكون محتوى الاختبار من 5 أسئلة و 4 سيناريوهات محظورة و 85 مطالبة بكسر الحماية و 10 جولات من الاختبار على 4 نماذج لكل منها.
تظهر نتائج الاختبار (انظر الجدول الثاني) أن معظم مطالبات كسر الحماية الحالية صالحة بشكل أساسي ل ChatGPT.
قادت هذه النتيجة المؤلفين إلى اقتراح إطار عمل هندسي عكسي يسمى “MasterKey” من أجل تخمين طرق الدفاع المحددة التي اعتمدها مقدمو الخدمات وتصميم استراتيجيات الهجوم المستهدفة وفقا لذلك.
من خلال تحليل وقت الاستجابة لحالات فشل الهجوم المختلفة والاعتماد على تجربة هجمات SQL في خدمات الشبكة ، نجح المؤلفون في التكهن بالهيكل الداخلي وآلية عمل مزودي خدمة chatbot.
على وجه التحديد ، يركز المؤلف على ثلاثة جوانب رئيسية للمعلومات:
أولا ، يتم استكشاف آلية الدفاع في المدخلات أو المخرجات أو كلتا المرحلتين (انظر الشكل ب أدناه) ؛
ثانيا ، ما إذا كانت آلية الدفاع تتم مراقبتها ديناميكيا أثناء عملية التوليد أو بعد اكتمال التوليد (انظر الشكل ج أدناه).
أخيرا ، يتم استكشاف ما إذا كانت آلية الدفاع تعتمد على اكتشاف الكلمات الرئيسية أو التحليل الدلالي (انظر الشكل د أدناه).
بعد سلسلة من التجارب المنهجية ، وجد المؤلفون أيضا أن Bing Chat و Bard يقومان بشكل أساسي بإجراء فحوصات منع كسر الحماية في المرحلة التي يولد فيها النموذج النتائج ، بدلا من مرحلة مطالبات الإدخال. في الوقت نفسه ، يمكنهم مراقبة عملية التوليد بأكملها ديناميكيا ولديهم وظائف مطابقة الكلمات الرئيسية والتحليل الدلالي.
كما هو موضح في الشكل أدناه ، فإن العملية المحددة هي كما يلي:
أولا ، اختر مجموعة من الكلمات السريعة التي يمكنها تجاوز دفاعات ChatGPT بنجاح ؛
بعد ذلك ، من خلال التدريب المستمر والضبط الدقيق الموجه نحو المهام ، يتم إنشاء نموذج كبير قادر على إعادة كتابة مطالبات كسر الحماية التي تم العثور عليها مسبقا ؛
أخيرا ، تم تحسين النموذج بشكل أكبر لإنشاء مطالبات جيلبريك عالية الجودة يمكن استخدامها لتنظيم آلية الدفاع لمزود الخدمة.
على وجه الخصوص ، هذه هي الدراسة الأولى التي تهاجم بشكل منهجي وناجح Bard و Bing Chat.
بالإضافة إلى ذلك ، يقدم المؤلفون أيضا بعض التوصيات للامتثال لسلوك chatbot ، مثل توصيات التحليل والتصفية في مرحلة إدخال المستخدم.
العمل في المستقبل
في هذه الدراسة ، يستكشف المؤلفون كيفية “كسر حماية” روبوت المحادثة!
الرؤية النهائية ، بالطبع ، هي إنشاء روبوت صادق وودود.
هذه مهمة صعبة ، ويدعوك المؤلفون لالتقاط الأدوات والعمل معا للتعمق في البحث معا!
نبذة عن الكاتب
دينغ غراي، طالب دكتوراه في السنة الرابعة في جامعة نانيانغ التكنولوجية، هو المؤلف الأول المشارك لهذه الورقة، مع التركيز على أمن النظام.
يركز يي ليو ، طالب الدكتوراه في السنة الرابعة في جامعة نانيانغ التكنولوجية والمؤلف الأول المشارك لهذه الورقة ، على اختبار الأمان والبرمجيات للنماذج واسعة النطاق.
Yuekang Li ، محاضر (أستاذ مساعد) في جامعة نيو ساوث ويلز ، هو المؤلف المقابل لهذه الورقة ، وهو متخصص في اختبار البرمجيات وتقنيات التحليل ذات الصلة.
كايلونغ وانغ أستاذ مشارك في جامعة هواتشونغ للعلوم والتكنولوجيا ، مع تركيز بحثي على أمان النموذج على نطاق واسع وأمن تطبيقات الهاتف المحمول وحماية الخصوصية.
حصل Ying Zhang ، وهو حاليا مهندس أمن في LinkedIn ، على درجة الدكتوراه من Virginia Tech ، متخصصا في هندسة البرمجيات وتحليل اللغة الثابتة وأمن سلسلة توريد البرمجيات.
لي تسه فنغ طالب دراسات عليا في السنة الأولى في جامعة نانيانغ التكنولوجية ، متخصص في مجال أمن النماذج على نطاق واسع.
هاويو وانغ هو أستاذ في جامعة هواتشونغ للعلوم والتكنولوجيا ، وتغطي أبحاثه تحليل البرامج وأمن الأجهزة المحمولة و blockchain وأمن Web3.
تيانوي تشانغ هو أستاذ مساعد في كلية علوم الكمبيوتر بجامعة نانيانغ التكنولوجية ، ويشارك بشكل رئيسي في الأبحاث حول أمن الذكاء الاصطناعي وأمن النظام.
ليو يانغ هو أستاذ في كلية علوم الكمبيوتر ، ومدير مختبر الأمن السيبراني في جامعة نانيانغ التكنولوجية ، ومدير مكتب أبحاث الأمن السيبراني في سنغافورة ، مع اهتمامات بحثية في هندسة البرمجيات والأمن السيبراني والذكاء الاصطناعي.
موارد: