حقق GPT-5 دقة 62.7% في حوادث الإنتاج، لكنه لم يبلغ المستوى المرجعي للخبراء البالغ 72.7%

2026-05-18 21:11:44

وفقًا للمعايرة الأحدث من Datadog وCarnegie Mellon، حقق GPT-5 دقة بلغت 62.7% في اختبار ARFBench، متراجعًا عن خبراء المجال البشريين بنسبة 72.7%. يُعد ARFBench أول معيار ذكاء اصطناعي مبنيًا على 63 حادثة إنتاج حقيقية، ويتضمن 750 سؤالًا متعدد الخيارات تغطي 142 مقياس مراقبة و5.38 مليون نقطة بيانات—لا توجد بيانات اصطناعية.

تواجه نماذج الذكاء الاصطناعي صعوبة أكبر ما يمكن في الاستدلال عبر المقاييس (أسئلة المستوى الثالث)، حيث سجل GPT-5‏ 47.5% على مقياس F1. ويصل نموذج نظري–خبير مثالي يجمع بين الذكاء الاصطناعي والحكم البشري إلى 87.2% دقة، ما يوضح كيف يمكن للتعاون أن يتجاوز أي طرف بمفرده. وتصدر نموذج Datadog الهجين، Toto-1.0-QA-Experimental، صدارة الترتيب عند 63.9% دقة، متفوقًا على GPT-5 في تحديد الشذوذات.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

05-18 07:46

ترفع Elliptic $120M مقابل منصة امتثال مدعومة بالذكاء الاصطناعي في ظل تصاعد مخاوف أمنية متزايدة

05-18 04:31

أنثروبيك ستطلع جهاز الاستخبارات الفدرالي للأمن السيبراني (FSB) على نتائج الأمن السيبراني لنموذج Mythos الخاص بالذكاء الاصطناعي؛ وسيطلق FSB تقرير أفضل الممارسات للذكاء الاصطناعي الشهر المقبل

05-18 03:52

البشر يهزمون روبوت Figure AI في تحدي فرز الطرود على مدار 10 ساعات في 18 مايو

05-18 02:55

تولّد نماذج الذكاء الاصطناعي في الصين 1.81x نداءات أكثر من الولايات المتحدة؛ ترتفع معاينة Tencent Hy3 بنسبة 210% لتتصدّر

05-17 06:31

نماذج الذكاء الاصطناعي الرائدة مُصنّفة وفق درجات اختبار Mensa للذكاء الاصطناعي؛ تعادل Grok-4.20 Expert و GPT 5.4 Pro عند 145

تحليل متعمق