ตามข้อมูลของ Sakana AI และ KPMG Japan Azsa บริษัททั้งสองได้เปิดตัว CoffeeBench ซึ่งเป็นมาตรวัดทางเศรษฐศาสตร์แบบหลายตัวแทนระยะยาวที่ได้รับการยอมรับจากเวิร์กช็อป Failure Modes in Agentic AI ของ ICML 2026 กรอบงานดังกล่าวจำลองห่วงโซ่อุปทานกาแฟที่มีเกษตรกร 2 ราย ผู้คั่ว 2 ราย และผู้ค้าปลีก 2 ราย โดยกำหนดให้โมเดล AI แต่ละตัวดำเนินธุรกิจคั่วกาแฟเป็นระยะเวลา 90 วัน โดยใช้การเจรจาราคา ธุรกรรมคำสั่งซื้อ และการชำระเงิน

การประเมินในแนวนอนของโมเดลกระแสหลักเผยให้เห็นพฤติกรรมการซื้อขายที่แตกต่างกัน: GPT-5.5 และ Claude Opus 4.7 ดำเนินการสื่อสารเชิงรุก เจรจาราคาและดำเนินการซื้อขายบ่อยครั้งเพื่อเพิ่มยอดขายสูงสุด ในขณะที่ Gemini 3.1 Pro แสดงการตอบสนองแบบรับเป็นฝ่ายรับ ที่น่าสังเกตคือ Kimi K2.6 ทำการเรียกใช้เครื่องมือจำนวนมากแต่ไม่สามารถบังคับใช้วินัยด้านราคา ส่งผลให้มีปริมาณธุรกรรมสูงแต่ไม่มีกำไรเลย Claude Haiku 4.5 แสดงให้เห็นถึงความไม่สอดคล้องกันระหว่างการวางแผนและการดำเนินการ โดยเลือกที่จะไม่ดำเนินการซ้ำแล้วซ้ำเล่าทั้งที่กำหนดกลยุทธ์ที่แข็งแกร่ง ในที่สุดก็ขาดทุนมหาศาลเมื่อต้นทุนคงที่สะสมเพิ่มขึ้น

news.view.source

news.article.disclaimer

news.related.news

12 ชั่วโมง ที่แล้ว

iFLYTEK เปิดตัวแพลตฟอร์ม Procurement AI Agent 2.0 พร้อมด้วยเอเจนต์ที่ถูกปรับใช้มากกว่า 200+ ตัว

16 ชั่วโมง ที่แล้ว

แพลตฟอร์ม Codex ของ OpenAI คิดเป็น 97.9% ของผลงานทั้งหมดทุกแผนก ณ เดือนมิถุนายน 2026

06-25 12:28

Fortune เปิดตัวเครื่องมือบอท AI เสร็จสิ้นการรวมสภาพคล่องของ Predict.fun

06-25 12:07

Meituan LongCat เปิดซอร์ส VitaBench 2.0 สำหรับการสร้างโมเดลผู้ใช้ระยะยาว

06-25 09:42