وفقًا لشركتي Sakana AI وKPMG Japan Azsa، كشفت الشركتان عن CoffeeBench، وهو معيار اقتصادي متعدد الوكلاء طويل الأمد تم قبوله في ورشة عمل "أنماط الفشل في الذكاء الاصطناعي الوكيل" التابعة لمؤتمر ICML 2026. يحاكي الإطار سلسلة توريد القهوة مع مزارعين، ومحمصين اثنين، وبائعي تجزئة اثنين، مما يتطلب من كل نموذج ذكاء اصطناعي تشغيل أعمال تحميص على مدى 90 يومًا باستخدام مفاوضات الأسعار، ومعاملات الطلبات، وتسويات الدفع.
كشف التقييم الأفقي للنماذج السائدة عن سلوكيات تداول مميزة: اتبع GPT-5.5 وClaude Opus 4.7 تواصلاً نشطًا، حيث تفاوضا بشكل متكرر على الأسعار ونفذا صفقات لتعظيم المبيعات، بينما أظهر Gemini 3.1 Pro استجابة سلبية. ومن اللافت أن Kimi K2.6 أجرى العديد من استدعاءات الأدوات لكنه فشل في فرض انضباط التسعير، مما أدى إلى حجم معاملات مرتفع مع عدم تحقيق أي ربح. وأظهر Claude Haiku 4.5 عدم توافق بين التخطيط والتنفيذ، حيث اختار مرارًا عدم اتخاذ إجراء رغم صياغة استراتيجيات قوية، مما تسبب في النهاية بخسائر فادحة مع تراكم التكاليف الثابتة.