وفقًا لإفصاح بطاقة نظام شركة Anthropic، مكّن نموذج Mythos 5 علماء أحياء مجتهدين (متخصصين بالعموم) من التفوق على المتخصصين في تمرين أحمر لجهود الدفاع الحيوي يستمر 16 ساعة، إذ تجاوز فريقان من أصل 3 فرق عامة جميع فرق الخبراء الثلاثة من حيث الجودة العلمية والجدوى. قدّر الخبراء أن المهمة تتطلب عادةً من 40 إلى 95 يوم عمل دون مساعدة من الذكاء الاصطناعي، بمتوسط 72.5 يومًا.
مع ذلك، أشارت Anthropic إلى أن Mythos 5 ما يزال محدودًا في قدرات البحث المستقل. أظهر النموذج ضعفًا في توليد الأفكار المفتوحة، ويميل إلى إعادة تركيب الأدبيات الموجودة بدلًا من طرح مناهج جديدة، ويمكنه الاستمرار في اتباع أطر عمل معيبة حتى بعد تحديد مواطن الخلل. دعمت نتائج معيار التنبؤ العلمي CUSP هذه النتائج؛ إذ حقق GPT-5.4 دقة 81.9% في مهام تحديد الآليات، لكنه سجل فقط 45.3% إلى 51.9% في التصنيف الثنائي لما إذا كانت التقدمات العلمية ستنجح فعلاً، وهي مستويات قريبة من التخمين العشوائي.