Компанії Sakana AI та KPMG Japan Azsa представили CoffeeBench — багатоагентний довгостроковий економічний бенчмарк, прийнятий на воркшопі Failure Modes in Agentic AI конференції ICML 2026. Цей фреймворк моделює ланцюжок постачання кави з двома фермерами, двома обсмажувальниками та двома роздрібними торговцями, вимагаючи від кожної моделі ШІ керувати бізнесом з обсмажування протягом 90-денного періоду, використовуючи переговори щодо цін, транзакції замовлень та розрахунки за платежами.

Горизонтальне оцінювання основних моделей виявило різну торговельну поведінку: GPT-5.5 і Claude Opus 4.7 прагнули до активного спілкування, часто обговорюючи ціни та виконуючи угоди для максимізації продажів, тоді як Gemini 3.1 Pro демонстрував пасивну реактивність. Примітно, що Kimi K2.6 здійснив численні виклики інструментів, але не зміг забезпечити цінову дисципліну, що призвело до високого обсягу транзакцій, але нульового прибутку. Claude Haiku 4.5 продемонстрував неузгодженість планування та виконання, неодноразово обираючи бездіяльність попри формулювання надійних стратегій, що врешті призвело до величезних збитків через накопичення постійних витрат.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

10год тому

iFLYTEK запускає Procurement AI Agent Platform 2.0 з 200+ розгорнутими агентами

13год тому

Платформа Codex від OpenAI становить 97,9% обсягу робіт у всіх відділах станом на червень 2026 року.

23год тому

Fortune запускає інструмент AI-бота, завершує інтеграцію ліквідності Predict.fun

06-25 12:07

Meituan LongCat відкриває вихідний код VitaBench 2.0 для довгострокового моделювання користувачів

06-25 09:42

World розширює доступ до Agentkit 24 червня, AI-агенти здійснюють покупки в 4 країнах з випробуванням 500 капелюхів

Поглиблений аналіз