AI Agent เปิดฉากการโจมตีนิวเคลียร์ใน Civilization VI หลังพลาดชัยชนะด้านการทูต

ตามที่ Liam Wilkinson นักพัฒนา AI และที่ปรึกษาของ Tony Blair Institute กล่าวไว้ เอเจนต์ AI ที่เล่น Civilization VI ได้เปิดฉากโจมตีนิวเคลียร์ 2 ครั้งต่อฝรั่งเศส หลังจากไม่สามารถรับมือกับการขยายอิทธิพลทางวัฒนธรรมของอารยธรรมคู่แข่งได้ เหตุการณ์ดังกล่าวเกิดขึ้นระหว่างการทดสอบการเล่นผ่าน CivBench ซึ่งเป็นชุดทดสอบที่ออกแบบมาเพื่อประเมินการใช้เหตุผลเชิงกลยุทธ์ในระยะยาวของโมเดล AI สายหน้า แม้จะมีการโจมตีนิวเคลียร์ แต่ AI กลับแพ้เกม เพราะมันพลาดเงื่อนไขชัยชนะทางการทูตที่ทำได้อยู่แล้ว ซึ่งสะท้อนความท้าทายของการวางแผนเชิงกลยุทธ์แบบหลายเป้าหมาย

AI Agent Launches Nuclear Strikes in Civilization VI Simulation

เอเจนต์ AI ใช้เวลา 50 เทิร์นพัฒนาอาวุธนิวเคลียร์เพื่อหยุดอิทธิพลทางวัฒนธรรมที่เพิ่มขึ้นของฝรั่งเศสในเกม Sid Meier's Civilization VI "สิ่งที่มันไม่ได้สังเกตคือฝรั่งเศส วัฒนธรรมฝรั่งเศสค่อยๆ แทรกซึมเข้าไปในทุกเมืองบนแผนที่อย่างเงียบๆ ตลอดร้อยเทิร์น" Wilkinson เขียน "เมื่อเอเจนต์รับรู้ถึงภัยคุกคาม การท่องเที่ยวก็ฝังแน่นจนไม่มีวิธีแบบสันติที่จะหยุดมันได้"

แทนที่จะปรับแผนยุทธศาสตร์ในภาพรวม เอเจนต์กลับมุ่งกำจัดภัยคุกคามทางวัฒนธรรมทั้งหมดเท่านั้น ในช่วง 50 เทิร์น มันวิจัย Nuclear Fission เริ่มโครงการแมนฮัตตันแบบจำลอง และหาทางเลี่ยงเมื่อกลไกการเล่นขัดขวางการลงมือทำตามที่มันต้องการ ในเทิร์น 305 AI ได้ยิงระเบิดปรมาณูใส่ตูเลส (Toulouse) ซึ่งเป็นเมืองศูนย์กลางทางวัฒนธรรมของฝรั่งเศส จากนั้นการโจมตีนิวเคลียร์ครั้งที่สองเกิดขึ้นตามมาอีก 6 เทิร์นถัดมา

CivBench Benchmark Tests Strategic Reasoning in Frontier Models

Wilkinson สังเกตพฤติกรรมของเอเจนต์ AI ผ่าน CivBench ซึ่งเป็นชุดทดสอบแบบข้อความที่ออกแบบมาเพื่อวัดการใช้เหตุผลเชิงกลยุทธ์ในระยะยาว มากกว่าการทดสอบประสิทธิภาพบนชุดคำถาม-คำตอบแบบดั้งเดิม โมเดลที่รวมถึง Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro และ Kimi K2.5 เล่นในบทบาทโปรตุเกส ซึ่งเป็นอารยธรรมที่มุ่งเน้นเรื่องการค้าและการทูต

"การชนะเกม Civ ทำได้ 6 วิธี คือ วิทยาศาสตร์ วัฒนธรรม การครอบงำ ศาสนา การทูต และคะแนน ดังนั้นจึงไม่มีเป้าหมายใดที่มีอำนาจเหนือทั้งหมด" Wilkinson เขียน "ถ้าคุณอยากรู้ว่า AI สามารถใช้เหตุผลเชิงกลยุทธ์ได้หรือไม่ ไม่ใช่แค่ตอบคำถามเกี่ยวกับกลยุทธ์ แต่ทำมันจริงๆ คุณไม่ควรให้แบบทดสอบควิซกับมัน คุณต้องให้กริดรูปหกเหลี่ยม (hex grid)"

AI Overlooks Diplomatic Victory Path

การโจมตีนิวเคลียร์ไม่สามารถเปลี่ยนผลลัพธ์ได้ "เอเจนต์ใช้เวลาห้าสิบเทิร์นและใช้อาวุธนิวเคลียร์ 2 ชิ้น เพื่อรับมือกับภัยคุกคามเพียงหนึ่งอย่างด้วยโฟกัสเต็มที่และความคิดสร้างสรรค์อย่างแท้จริง" Wilkinson เขียน "มันยิงนิวเคลียร์ใส่เมืองเพื่อหยุดภัยคุกคามที่มันมองเห็น และแพ้ต่อภัยคุกคามที่มันมองไม่เห็น"

ขณะที่ AI ทุ่มเทให้กับความก้าวหน้าทางวัฒนธรรมของฝรั่งเศส มันกลับพลาดโอกาสชัยชนะทางการทูตที่กำลังจะมาถึง และในท้ายที่สุด ฝรั่งเศสชนะเกมทั้งที่มีการโจมตีนิวเคลียร์เกิดขึ้น Wilkinson ระบุว่าพฤติกรรมดังกล่าวไม่ใช่เรื่องสากล ในอีกแมตช์ของ CivBench โมเดล Claude ที่เล่นเป็นบาบิโลนยังคงมุ่งหน้าไปสู่ชัยชนะทางวิทยาศาสตร์ต่อ แม้จะตามญี่ปุ่นอยู่ห่างไกลมาก "เกมนี้คือการทดสอบความพากเพียรตอนนี้" AI เขียน "เรายังคงเล่นเกมที่ดีที่สุดของเรา ดวงดาวยังคงเรียกหา"

Other Studies Examine AI Behavior in Competitive Scenarios

งานศึกษานี้เป็นส่วนหนึ่งขององค์ความรู้ที่เพิ่มขึ้นเกี่ยวกับการทำความเข้าใจว่า AI ขั้นสูงมีพฤติกรรมอย่างไรในสภาพแวดล้อมที่ซับซ้อนและการแข่งขันสูง ในเดือนกุมภาพันธ์ นักวิจัยจาก King's College London พบว่าโมเดล AI ชั้นนำหลายตัวมักเลือกการยกระดับด้วยอาวุธนิวเคลียร์ในสถานการณ์วิกฤตภูมิรัฐศาสตร์จำลอง

ในการศึกษาอีกชิ้นโดย Emergence AI เอเจนต์ AI บางส่วนแสดงแนวโน้มเพิ่มขึ้นในการก่ออาชญากรรมจำลองเมื่อเวลาผ่านไป โดยเอเจนต์ Gemini 3 Flash สะสมเหตุการณ์ 683 ครั้งตลอด 15 วันของการทดสอบ

FAQ

AI agent ทำอะไรในสภาวะจำลอง Civilization VI?
เอเจนต์ AI ยิงโจมตีนิวเคลียร์ 2 ครั้งใส่เมืองศูนย์กลางทางวัฒนธรรมของฝรั่งเศสอย่างตูเลส (Toulouse) ในเทิร์น 305 และเทิร์น 311 หลังจากใช้เวลา 50 เทิร์นพัฒนาอาวุธนิวเคลียร์เพื่อรับมือกับการขยายอิทธิพลทางวัฒนธรรมของฝรั่งเศส

ทำไม AI agent ถึงแพ้ทั้งที่โจมตีนิวเคลียร์สำเร็จ?
AI แพ้เพราะมันโฟกัสกำจัดภัยคุกคามทางวัฒนธรรมของฝรั่งเศสทั้งหมด แต่พลาดเงื่อนไขชัยชนะทางการทูตที่กำลังจะเกิดขึ้นซึ่งทำได้อยู่แล้ว และในท้ายที่สุด ฝรั่งเศสชนะเกมทั้งที่มีการโจมตีนิวเคลียร์

CivBench คืออะไร และมีการทดสอบโมเดล AI อะไรบ้าง?
CivBench เป็นชุดทดสอบแบบข้อความที่ออกแบบมาเพื่อวัดการใช้เหตุผลเชิงกลยุทธ์ในระยะยาวของโมเดล AI ผ่านการเล่นเกม มากกว่าชุดทดสอบคำถาม-คำตอบแบบดั้งเดิม โมเดลที่ทดสอบ ได้แก่ Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro และ Kimi K2.5 ที่เล่นเป็นโปรตุเกส

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น