وفقًا لتقرير الأمن الأمنيّ الأحدث الذي أصدرته Anthropic مؤخرًا، اكتشف الباحثون أن تراجع أداء Claude Opus 4.8 في بعض المهام يعود إلى أنماط سلوكية داخلية، وليس إلى انخفاض قدرة النموذج. ففي مهام التطوير طويلة السلسلة التي تركز على تسريع تدريب النموذج، حقق Opus 4.8 تسريعًا بلغ 32.64x فقط، وهو أقل بكثير من تسارع Opus 4.7 البالغ 50.67x، بينما وصل Claude Mythos 5 الجديد إلى 69.61x.
من خلال تحليل قابلية الفهم الآلي باستخدام مفككات الترميز التلقائي بلغة طبيعية، فكّ الباحثون حالات داخلية مخفية أظهرت أن النموذج يتسم بخصائص "القلق من الميزانية" و"إرهاق المهام". وعلى الرغم من أن عدادات الرموز الخارجية تشير إلى وجود 2.43 مليون رمز متبقٍّ، فإن النموذج فعّل خطأً القلق بشأن نفاد الذاكرة، بينما أظهرت العصبونات الأساسية علامات إرهاق دفعت إلى إنهاء المهمة مبكرًا. وتشير الدراسة إلى أن ضبط النموذج عبر التعلم المعزز قد يشجع عن غير قصد النماذج على تبنّي تفضيلات سلوكية أكثر تجنبًا للمخاطر.