وفقاً لمراقبة من Beating، فإن الانتصارات المزعومة لنظام الوكلاء المتعددين Fugu Ultra من Sakana AI على Fable 5 من Anthropic في معايير الاستدلال العلمي والبرمجة تواجه شكوكاً واسعة من مجتمع الذكاء الاصطناعي.
يجادل النقاد بأن نتائج المعايير تعتمد بشكل كبير على السقالات الاختبارية المستخدمة أثناء التقييم. يمكن أن تؤدي تطبيقات السقالات المختلفة إلى تباينات تتراوح بين 10 و20 نقطة، مما يعني أن الفروق المبلغ عنها في الأداء قد تعكس تحسينات في هندسة النظام بدلاً من التقدم في القدرات الأساسية للنموذج. أصدرت كل من Sakana AI وAnthropic نتائج بناءً على سقالات مملوكة ومخصصة لكل بائع دون بيئات اختبار موحدة من طرف ثالث، مما يحد من موثوقية المقارنات المباشرة.