Sakana AI und KPMG präsentieren CoffeeBench, eine 90-tägige KI-Agenten-Handelssimulation; GPT-5.5 und Claude zeigen gegensätzliche Strategien

Laut Sakana AI und KPMG Japan Azsa haben die Unternehmen CoffeeBench vorgestellt, eine Multi-Agenten-Benchmark für langfristige Wirtschaftssimulationen, die vom ICML 2026-Workshop „Failure Modes in Agentic AI“ angenommen wurde. Das Framework simuliert eine Kaffee-Lieferkette mit zwei Bauern, zwei Röstern und zwei Einzelhändlern. Jedes KI-Modell muss ein Röstunternehmen über einen Zeitraum von 90 Tagen betreiben und dabei Preisverhandlungen, Bestelltransaktionen und Zahlungsabwicklungen durchführen.

Eine horizontale Bewertung gängiger Modelle zeigte unterschiedliche Handelsverhalten: GPT-5.5 und Claude Opus 4.7 verfolgten aktive Kommunikation, verhandelten häufig Preise und führten Trades durch, um den Umsatz zu maximieren, während Gemini 3.1 Pro eine passive Reaktionsbereitschaft zeigte. Bemerkenswerterweise tätigte Kimi K2.6 zahlreiche Tool-Aufrufe, konnte jedoch keine Preispolitik durchsetzen, was zu einem hohen Transaktionsvolumen, aber null Gewinn führte. Claude Haiku 4.5 zeigte eine Diskrepanz zwischen Planung und Ausführung: Trotz solider Strategien wählte es wiederholt Untätigkeit, was durch die Akkumulation fixer Kosten massive Verluste verursachte.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare