فابل 5 يفشل في جميع أصعب المهام في امتحان ALE بجامعة كاليفورنيا بيركلي، بتكلفة أعلى 4-12 مرات من منافسيه

وفقاً لـUC Berkeley RDI، تُظهر نتائج تقييم «آخر امتحان للوكالات» (ALE) الأحدث التي تم إصدارها هذا الأسبوع نسبة نجاح بلغت 0% في أصعب المهام التي تتطلب تفكيراً مستمراً وخبرة عميقة عبر جميع وكلاء الذكاء الاصطناعي الذين تم اختبارهم، بما في ذلك Fable 5 المستجد. وفي تكاليف واجهة برمجة التطبيقات لكل مهمة، تقاضى Fable 5 مبلغ 15.70 دولاراً—بمعدل 4 مرات أعلى من GPT-5.5 عند 3.80 دولاراً و12 مرة أعلى من Composer 2.5 عند 1.33 دولار. شمل التقييم 55 مجالاً مهنياً مع أكثر من 1,500 مهمة موثقة من الخبراء، ووجد أن الوكلاء يفشلون في أغلب الأحيان عبر الإعلان عن النجاح مبكراً دون التحقق من النتائج.
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات