Sakana AI та KPMG представляють CoffeeBench, 90-денну симуляцію торгівлі AI-агентів; GPT-5.5 і Claude демонструють протилежні стратегії

Компанії Sakana AI та KPMG Japan Azsa представили CoffeeBench — багатоагентний довгостроковий економічний бенчмарк, прийнятий на воркшопі Failure Modes in Agentic AI конференції ICML 2026. Цей фреймворк моделює ланцюжок постачання кави з двома фермерами, двома обсмажувальниками та двома роздрібними торговцями, вимагаючи від кожної моделі ШІ керувати бізнесом з обсмажування протягом 90-денного періоду, використовуючи переговори щодо цін, транзакції замовлень та розрахунки за платежами.

Горизонтальне оцінювання основних моделей виявило різну торговельну поведінку: GPT-5.5 і Claude Opus 4.7 прагнули до активного спілкування, часто обговорюючи ціни та виконуючи угоди для максимізації продажів, тоді як Gemini 3.1 Pro демонстрував пасивну реактивність. Примітно, що Kimi K2.6 здійснив численні виклики інструментів, але не зміг забезпечити цінову дисципліну, що призвело до високого обсягу транзакцій, але нульового прибутку. Claude Haiku 4.5 продемонстрував неузгодженість планування та виконання, неодноразово обираючи бездіяльність попри формулювання надійних стратегій, що врешті призвело до величезних збитків через накопичення постійних витрат.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів