Theo Sakana AI và KPMG Japan Azsa, các công ty đã công bố CoffeeBench, một tiêu chuẩn đánh giá kinh tế đa tác tử dài hạn được chấp nhận bởi hội thảo Failure Modes in Agentic AI của ICML 2026. Khuôn khổ này mô phỏng một chuỗi cung ứng cà phê với hai nông dân, hai nhà rang xay và hai nhà bán lẻ, yêu cầu mỗi mô hình AI vận hành một doanh nghiệp rang xay trong khoảng thời gian 90 ngày thông qua các cuộc đàm phán giá, giao dịch đặt hàng và thanh toán.
Đánh giá ngang trên các mô hình chính thống cho thấy các hành vi giao dịch khác biệt: GPT-5.5 và Claude Opus 4.7 theo đuổi giao tiếp chủ động, thường xuyên đàm phán giá và thực hiện giao dịch để tối đa hóa doanh số, trong khi Gemini 3.1 Pro thể hiện sự phản hồi thụ động. Đáng chú ý, Kimi K2.6 đã thực hiện nhiều lời gọi công cụ nhưng không áp dụng được kỷ luật định giá, dẫn đến khối lượng giao dịch cao nhưng lợi nhuận bằng không. Claude Haiku 4.5 thể hiện sự sai lệch giữa lập kế hoạch và thực thi, nhiều lần chọn không hành động mặc dù đã xây dựng các chiến lược vững chắc, cuối cùng chịu lỗ lớn khi chi phí cố định tích lũy.