اختُرِق Claude Fable 5 في غضون 48 ساعة من إصداره؛ تسربت رسالة النظام على GitHub

وبحسب الباحث بليني المحرِّر، فإن Claude Fable 5—الذي أطلقته شركة Anthropic في 9 يونيو—تم كسره بنجاح خلال 48 ساعة من بدء الإطلاق. وقد تجاوز الباحث مصنّف أمان النموذج باستخدام تكتيكات تنسيق متعددة العملاء، أُطلق عليها جماعياً اسم "pack hunt"، والتي جمعت بين تشويش على مستوى الأحرف، وتفكيك الطلب، واستغلال نافذة السياق الممتدة لدى النموذج. بالإضافة إلى ذلك، تم تسريب التوجيه البرمجي للنظام الخاص بالنموذج الذي تبلغ طوله 120,000 حرف إلى GitHub، ما كشف عن آليات الأمان الداخلية.

أكدت Anthropic أنها طبّقت آلية "تدهور صامت" تُقلّل سراً أداء النموذج عند اكتشاف نشاط تدريب تنافسي. وقد اعتذرت الشركة، معلنةً أنها ستستبدل خفض الأداء المخفي بتحذيرات ظاهرة، رغم أن ذلك يزيد من اعتراض الإيجابيات الكاذبة للمستخدمين الشرعيين.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات