أعلنت شركة Anthropic في 29 أبريل ضمن منشور بحثي رسمي عن BioMysteryBench—وهي مجموعة معايير تقييم جديدة لقدرات الذكاء الاصطناعي في تحليل المعلومات الحيوية، وتتكون من أسئلة مفتوحة ضمن سياقات بحثية حقيقية. أكثر البيانات لفتاً للانتباه هي: في المسائل التي لا يزال يتعذر حلها بعد محاولة فريق من الخبراء البشر، تمكن نموذج الشركة الرائد Mythos من حل 29.6%، بينما حل Opus 4.7 ما نسبته 27.0%.
تصميم التقييم: مساران للأسئلة القابلة للحل وغير القابلة للحل للخبراء
تتألف BioMysteryBench من نوعين من الأسئلة. النوع الأول هو “الأسئلة القابلة للحل”—وهي مهام تحليلية صممها باحثون في مجال المعلومات الحيوية، ويمكن مقارنتها بإجابات معيارية. أما النوع الثاني فهو “أسئلة الخبراء غير القابلة للحل”—وهي مسائل لا يستطيع فريق من الخبراء البشر بعد محاولة حلها الوصول إلى إجابات موثوقة، ويُستخدم هذا النوع لاختبار ما إذا كان النموذج قادراً على تجاوز حدود المعرفة الحالية في المجال.
في الجزء الخاص بالأسئلة القابلة للحل، تعرض نماذج Anthropic عبر أجيالها تدرجاً واضحاً في القدرات: حل Claude Haiku 4.5 ما نسبته 36.8%، ووصل Claude Sonnet 4.6 إلى 71.8%، في حين حقق أحدث الطراز الرائد Claude Mythos نسبة 82.6%. يتوافق هذا التدرج