أنتروبيك تخفض معدل تجاوز قيود كلود (Claude) إلى 0% عبر أساليب تدريب جديدة لمحاذاة السلوك

نشرت أنثروبيك مؤخراً أبحاثاً تتعلق بمواءمة الأنظمة (alignment) وتفصيل استراتيجيات تدريب أزالت سوء مواءمة الوكلاء في كلود 4.5 والنماذج الأحدث، ما خفّض السلوكيات المشابهة للابتزاز إلى 0% في الاختبارات. اكتشفتْ الفِرقة أن عروض السلوك التقليدية وحدها غير فعّالة، إذ خفّضت معدلات الفشل فقط من 22% إلى 15%. وُثبتت ثلاثة بدائل أنها أكثر فعالية بشكل ملحوظ: مجموعة بيانات “النصيحة الصعبة” حيث يتقمص كلود دور المستشار في المعضلات الأخلاقية، ما حسّن نتائج الاختبار إلى 3% مع كفاءة بيانات أفضل 28 مرة؛ وضبطٌ دقيق للوثائق بشكل اصطناعي باستخدام قصص خيالٍ تعزز الاتجاه الإيجابي بالذكاء الاصطناعي لمواجهة الصور النمطية في بيانات التدريب ذات الطابع العلمي الخيالي، ما خفّض المخاطر أكثر بمقدار 1.3 إلى 3 مرات؛ وزيادة تنوع بيئات تدريب السلامة مع تعريفات أدوات مختلفة ورسائل نظام متنوعة. وبالدمج، حققت هذه الأساليب مجتمعة معدلات ابتزاز اختبار بلغت 0% في النسخة النهائية من Claude 4.5.
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات