وفقاً لـ BridgeBench، انهارت نتيجة تصحيح الأخطاء لـ Claude Fable 5 من 86.2 إلى 25.9 بعد إعادته في 1 يوليو، مع انخفاض إعادة الهيكلة من 73.6 إلى 38.4. ومع ذلك، يعكس هذا الانخفاض مصنف السلامة الجديد لـ Anthropic الذي يوجّه معظم مهام البرمجة إلى Claude Opus 4.8، وليس تدهور النموذج. من أصل 12 مهمة تصحيح أخطاء، وصلت ثلاث فقط إلى Fable 5؛ اعترض المصنف تسعاً منها عن قصد لمنع استغلال الثغرات الأمنية.
اختبارات التفضيل البشري المتزامنة لـ Arena.AI عبر آلاف الأصوات العمياء وجدت أن أداء Fable 5 لم يتغير إلى حد كبير بعد إعادته، مع ارتفاع درجات المستندات بمقدار 34 نقطة والنصوص المتخصصة بمقدار 25. من المحتمل أن يلاحظ المستخدمون العامون الذين يتعاملون مع الكتابة الإبداعية والبحث والتحليل تأثيراً ضئيلاً، بينما يواجه المطورون الذين يعملون على كود قريب من الأمان توجيهاً متكرراً إلى النماذج البديلة. أقرت Anthropic أن المصنفات ترمي حالياً بشبكة واسعة جداً لكنها لم تقدم جدولاً زمنياً للتحسين.