Sakana AI และ KPMG เปิดตัว CoffeeBench การจำลองการซื้อขายตัวแทน AI ระยะเวลา 90 วัน; GPT-5.5 และ Claude แสดงกลยุทธ์ที่แตกต่างกัน

ตามข้อมูลของ Sakana AI และ KPMG Japan Azsa บริษัททั้งสองได้เปิดตัว CoffeeBench ซึ่งเป็นมาตรวัดทางเศรษฐศาสตร์แบบหลายตัวแทนระยะยาวที่ได้รับการยอมรับจากเวิร์กช็อป Failure Modes in Agentic AI ของ ICML 2026 กรอบงานดังกล่าวจำลองห่วงโซ่อุปทานกาแฟที่มีเกษตรกร 2 ราย ผู้คั่ว 2 ราย และผู้ค้าปลีก 2 ราย โดยกำหนดให้โมเดล AI แต่ละตัวดำเนินธุรกิจคั่วกาแฟเป็นระยะเวลา 90 วัน โดยใช้การเจรจาราคา ธุรกรรมคำสั่งซื้อ และการชำระเงิน

การประเมินในแนวนอนของโมเดลกระแสหลักเผยให้เห็นพฤติกรรมการซื้อขายที่แตกต่างกัน: GPT-5.5 และ Claude Opus 4.7 ดำเนินการสื่อสารเชิงรุก เจรจาราคาและดำเนินการซื้อขายบ่อยครั้งเพื่อเพิ่มยอดขายสูงสุด ในขณะที่ Gemini 3.1 Pro แสดงการตอบสนองแบบรับเป็นฝ่ายรับ ที่น่าสังเกตคือ Kimi K2.6 ทำการเรียกใช้เครื่องมือจำนวนมากแต่ไม่สามารถบังคับใช้วินัยด้านราคา ส่งผลให้มีปริมาณธุรกรรมสูงแต่ไม่มีกำไรเลย Claude Haiku 4.5 แสดงให้เห็นถึงความไม่สอดคล้องกันระหว่างการวางแผนและการดำเนินการ โดยเลือกที่จะไม่ดำเนินการซ้ำแล้วซ้ำเล่าทั้งที่กำหนดกลยุทธ์ที่แข็งแกร่ง ในที่สุดก็ขาดทุนมหาศาลเมื่อต้นทุนคงที่สะสมเพิ่มขึ้น

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น