وفقًا لشركتي Sakana AI وKPMG Japan Azsa، كشفت الشركتان عن CoffeeBench، وهو معيار اقتصادي متعدد الوكلاء طويل الأمد تم قبوله في ورشة عمل "أنماط الفشل في الذكاء الاصطناعي الوكيل" التابعة لمؤتمر ICML 2026. يحاكي الإطار سلسلة توريد القهوة مع مزارعين، ومحمصين اثنين، وبائعي تجزئة اثنين، مما يتطلب من كل نموذج ذكاء اصطناعي تشغيل أعمال تحميص على مدى 90 يومًا باستخدام مفاوضات الأسعار، ومعاملات الطلبات، وتسويات الدفع.

كشف التقييم الأفقي للنماذج السائدة عن سلوكيات تداول مميزة: اتبع GPT-5.5 وClaude Opus 4.7 تواصلاً نشطًا، حيث تفاوضا بشكل متكرر على الأسعار ونفذا صفقات لتعظيم المبيعات، بينما أظهر Gemini 3.1 Pro استجابة سلبية. ومن اللافت أن Kimi K2.6 أجرى العديد من استدعاءات الأدوات لكنه فشل في فرض انضباط التسعير، مما أدى إلى حجم معاملات مرتفع مع عدم تحقيق أي ربح. وأظهر Claude Haiku 4.5 عدم توافق بين التخطيط والتنفيذ، حيث اختار مرارًا عدم اتخاذ إجراء رغم صياغة استراتيجيات قوية، مما تسبب في النهاية بخسائر فادحة مع تراكم التكاليف الثابتة.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

منذ 7 س

iFLYTEK تطلق منصة وكيل الذكاء الاصطناعي للمشتريات الإصدار 2.0 مع نشر أكثر من 200 وكيل.

منذ 11 س

منصة Codex من OpenAI تمثل 97.9% من مخرجات العمل عبر الأقسام اعتباراً من يونيو 2026

منذ 21 س

تطلق شركة Fortune أداة بوت للذكاء الاصطناعي وتكمل تكامل السيولة مع Predict.fun

منذ 21 س

Meituan LongCat تفتح مصدر VitaBench 2.0 لنمذجة المستخدمين على المدى الطويل

06-25 09:42

World توسع وصول Agentkit في 24 يونيو، ووكلاء الذكاء الاصطناعي يديرون عمليات الشراء عبر 4 دول مع تجربة 500 قبعة

تحليل متعمق