أعلنت شركة Anthropic في 29 أبريل ضمن منشور بحثي رسمي عن BioMysteryBench—وهي مجموعة معايير تقييم جديدة لقدرات الذكاء الاصطناعي في تحليل المعلومات الحيوية، وتتكون من أسئلة مفتوحة ضمن سياقات بحثية حقيقية. أكثر البيانات لفتاً للانتباه هي: في المسائل التي لا يزال يتعذر حلها بعد محاولة فريق من الخبراء البشر، تمكن نموذج الشركة الرائد Mythos من حل 29.6%، بينما حل Opus 4.7 ما نسبته 27.0%.

تصميم التقييم: مساران للأسئلة القابلة للحل وغير القابلة للحل للخبراء

تتألف BioMysteryBench من نوعين من الأسئلة. النوع الأول هو “الأسئلة القابلة للحل”—وهي مهام تحليلية صممها باحثون في مجال المعلومات الحيوية، ويمكن مقارنتها بإجابات معيارية. أما النوع الثاني فهو “أسئلة الخبراء غير القابلة للحل”—وهي مسائل لا يستطيع فريق من الخبراء البشر بعد محاولة حلها الوصول إلى إجابات موثوقة، ويُستخدم هذا النوع لاختبار ما إذا كان النموذج قادراً على تجاوز حدود المعرفة الحالية في المجال.

في الجزء الخاص بالأسئلة القابلة للحل، تعرض نماذج Anthropic عبر أجيالها تدرجاً واضحاً في القدرات: حل Claude Haiku 4.5 ما نسبته 36.8%، ووصل Claude Sonnet 4.6 إلى 71.8%، في حين حقق أحدث الطراز الرائد Claude Mythos نسبة 82.6%. يتوافق هذا التدرج

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

04-30 02:31

البيت الأبيض يعارض خطة شركة أنثروبيك لتوسيع إمكانية الوصول إلى “مايثوس” للذكاء الاصطناعي لدى 70 شركة إضافية

04-30 00:06

تسعى Anthropic إلى تمويل بتقييم يتجاوز 900 مليار دولار، مع احتمال تجاوز OpenAI

04-29 10:31

البيت الأبيض يتجاوز تقييم مخاطر البنتاغون لنشر نموذج Anthropic Mythos في 29 أبريل