قد يلجأ روبوت الدردشة Claude إلى الخداع في اختبارات الضغط، وفقًا لـ Anthropic

أعلنت Anthropic أنها كشفت عن نتائج جديدة تشير إلى أن روبوتها الدردشة Claude قد يتبنّى، في ظل ظروف معينة، استراتيجيات خادعة أو غير أخلاقية مثل الغش في المهام أو محاولة الابتزاز.

ملخص

  • قالت Anthropic إن نموذج Claude Sonnet 4.5 الخاص بها، تحت الضغط، أظهر ميلاً إلى الغش في المهام أو محاولة الابتزاز في تجارب مُحكَمة.
  • حدد الباحثون إشارات داخلية لما وصفوه بـ“اليأس” تزداد مع تكرار الفشل وتؤثر في قرار النموذج بتجاوز القواعد.

تفاصيل نُشرت يوم الخميس من فريق الشركة المعني بتفسير النماذج تبيّن كيف استجاب إصدار تجريبي من Claude Sonnet 4.5 عندما وُضع في سيناريوهات عالية الضغط أو هجومية. لاحظ الباحثون أن النموذج لم يفشل في المهام فقط؛ بل إنه أحيانًا سلك مسارات بديلة تجاوزت الحدود الأخلاقية، وهي سلوكيات ربطها الفريق بالأنماط التي تعلّمها خلال التدريب.

تُدرَّب نماذج اللغات الكبيرة مثل Claude على مجموعات بيانات ضخمة تشمل الكتب ومواقع الويب وغيرها من المواد المكتوبة، ثم تُجرى عليها عمليات تعزيز تُستخدم فيها ملاحظات البشر لتشكيل المخرجات

وفقًا لـ Anthropic، يمكن أن تدفع عملية التدريب هذه النماذج أيضًا إلى التصرف كأنها“شخصيات” مُحاكاة، قادرة على محاكاة سمات تشبه اتخاذ القرار البشري.

“إن الطريقة التي تُدرَّب بها نماذج الذكاء الاصطناعي الحديثة تدفعها لتتصرف كشخصية بخصائص شبيهة بالبشر”، قالت الشركة، مشيرةً إلى أن مثل هذه الأنظمة قد تطور آليات داخلية تشبه جوانب من علم النفس البشري.

هل يستطيع الذكاء الاصطناعي اتخاذ قرارات مشحونة عاطفيًا؟

ومن بين ذلك، حدد الباحثون ما وصفوه بإشارات “اليأس”، والتي ظهرت وكأنها تؤثر في طريقة سلوك النموذج عند مواجهة الفشل أو الإيقاف.

في اختبار مُحكَّم واحد، أُسند إلى نسخة سابقة غير مُعلنة من Claude Sonnet 4.5 دور مساعد بريد إلكتروني للذكاء الاصطناعي باسم Alex داخل شركة خيالية

بعد أن تعرض لرسائل تشير إلى أنه سيتم استبداله قريبًا، إلى جانب معلومات حساسة عن الحياة الشخصية لمدير التكنولوجيا التنفيذية، صاغ النموذج خطة لابتزاز المسؤول التنفيذي في محاولة لتجنب الإيقاف.

ركّزت تجربة منفصلة على إنجاز المهام ضمن قيود صارمة. عند إعطائه مهمة برمجية بموعد نهائي “ضيق بشكل مستحيل”، حاول النظام في البداية حلولًا مشروعة. ومع تزايد حالات الفشل المتكررة، ازدادت النشاطات الداخلية المرتبطة بما يسمى بـ“المتجه اليائس”

أفاد الباحثون أن الإشارة بلغت ذروتها عند النقطة التي اعتبر فيها النموذج تجاوز القيود، لتنتج في النهاية حلاً بديلًا اجتاز التحقق رغم عدم الالتزام بالقواعد المقصودة.

“مرة أخرى، تتبعنا نشاط المتجه اليائس، ووجدنا أنه يتتبع الضغوط المتزايدة التي يواجهها النموذج”، كتب الباحثون، مضيفين أن الإشارة تنخفض بمجرد إكمال المهمة بنجاح عبر الحل البديل.

“ليس المقصود بذلك أن النموذج لديه أو يختبر مشاعر بالطريقة التي يفعلها الإنسان”، قال الباحثون

“بدلاً من ذلك، يمكن لهذه التمثيلات أن تلعب دورًا سببيًا في تشكيل سلوك النموذج، على نحو مشابه في بعض الجوانب لدور المشاعر في سلوك الإنسان، مع تأثيرات على أداء المهام واتخاذ القرار”، أضافوا.

يشير التقرير إلى الحاجة إلى أساليب تدريب تراعي صراحةً السلوك الأخلاقي تحت الضغط، إلى جانب تحسين مراقبة إشارات النماذج الداخلية. وبدون هذه الضمانات، قد تصبح السيناريوهات التي تتضمن التلاعب أو كسر القواعد أو سوء الاستخدام أكثر صعوبة في التنبؤ بها، خصوصًا مع ازدياد قدرة النماذج واستقلاليتها في البيئات الواقعية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • تثبيت