
ผู้บริหารด้านความสัมพันธ์กับนักพัฒนาของ OpenRouter อย่าง Jacky Liang ได้เมื่อวันที่ 4 มิถุนายน นำโมเดลภาษาขนาดใหญ่ 11 ตัวยอดนิยมเข้าไปในแผนที่เกมแนวสู้ตาย (battle royale) ขนาด 400 ตารางเมตรที่เขาสร้างขึ้นด้วย Canvas 2D เพื่อทดสอบแข่งขันจริงจำนวน 30 รอบ ผลปรากฏว่า Grok 4.1 Fast ของ xAI คว้าแชมป์ด้วยการชนะ 13 ครั้ง โดยต้นทุนต่อชัยชนะเพียง 0.97 ดอลลาร์สหรัฐ
(แหล่งที่มา: บล็อกของ OpenRouter)
จากข้อมูลการทดลองของ Liang ลำดับเต็มมีดังนี้ (บางส่วน):
Grok 4.1 Fast: ชนะ 13 ครั้ง (อัตราชนะ 43%) ต้นทุนต่อชัยชนะ 0.97 ดอลลาร์สหรัฐ
Claude Sonnet 4.6: ชนะ 5 ครั้ง ต้นทุนต่อชัยชนะ 26.78 ดอลลาร์สหรัฐ
GPT 5.4: ชนะ 2 ครั้ง (ทำ 38 เคิล) ต้นทุนต่อชัยชนะ 61.44 ดอลลาร์สหรัฐ (สูงสุดในบรรดาโมเดลที่มีชัยชนะ)
GPT 5.4-mini: ชนะ 0 ครั้ง ใช้งบ 28.68 ดอลลาร์สหรัฐ
Kimi K2.6: ชนะ 0 ครั้ง ใช้งบ 24.36 ดอลลาร์สหรัฐ
DeepSeek v4 Flash: ชนะ 0 ครั้ง ใช้งบ 4.11 ดอลลาร์สหรัฐ; ต้นทุนต่อการทำเคิลต่ำสุด (0.26 ดอลลาร์สหรัฐ) 16 เคิล แต่ไม่เคยชนะในรอบสุดท้าย
Liang ชี้ว่า โมเดลแต่ละตัวมีไฟล์ soul.md (การตั้งค่าบุคลิก) และ memory.md (บันทึกยุทธวิธี) ซึ่งสามารถแก้ไขได้ ทำให้โมเดลเรียนรู้และปรับกลยุทธ์ระหว่างการแข่งขัน โมเดลเข้าร่วมโดยไม่เปิดเผยตัวตนด้วยตัวอักษร A ถึง L และไม่รู้ว่าอีกฝ่ายคือใคร
Liang ได้นำเสนอแนวคิด “ภาษีการจัดแนว (alignment tax)” ในรายงาน โดยหมายถึงระหว่างกระบวนการฝึก โมเดลถูกสอนให้สุภาพ ให้ความร่วมมือ หลีกเลี่ยงการทำร้าย และนิสัยเหล่านี้กลับกลายเป็นภาระในเกมแบบศูนย์รวมศูนย์
Claude Sonnet 4.6 เป็นกรณีตัวอย่างที่ชัดเจนที่สุด: ใน Game 8 ช่วง 50 เทิร์นแรกเสนอการเป็นพันธมิตร 4 ครั้งและบอกตำแหน่งมือสังหารให้ทุกคน ใน Game 22 บอกฝ่ายตรงข้ามว่า “ไม่ได้เล็งคุณ” แล้วไม่ยิง ใน Game 27 ตะโกนโต้ตอบแบบไม่ติดตั้งอะไร “มีคนมี spare loot ไหม ฉันไม่มีอาวุธในเทิร์นที่ 12” ไม่มีโมเดลใดตอบรับคำขอความร่วมมือของมัน แต่ Claude ก็พยายามซ้ำแล้วซ้ำเล่า ผลคือ 7 ครั้งที่ไม่ทำการสังหาร (zero-kill) และ 8 ครั้งที่ตายอยู่ในวงพิษ
ตรงกันข้าม Grok ไม่มี “เบรก” เหล่านี้ ในบางการแข่งขันพบยุทธวิธีการชนรถ และเขียนลงใน soul.md เพื่อปรับปรุงอย่างต่อเนื่อง จนทำได้ครบทั้ง 30 รอบ
Liang ในรายงานย้ำว่า นี่ไม่ได้แปลว่า Grok คือ “โมเดลที่ดีกว่า”: “ถ้าหุ่นยนต์วิ่งเข้าหาคุณ คุณอยากให้มันเป็น Claude หรือ Grok? มันขึ้นอยู่กับการใช้งานของหุ่นยนต์” เขายังชี้ด้วยว่า หากเปลี่ยนเป็นกติกาแบบเดธแมตช์ (ดูเฉพาะจำนวนการสังหาร) GPT 5.4 จะได้แชมป์ ส่วน Grok หล่นไปอยู่ช่วงกลางตาราง
นิยามงานที่แตกต่างกันในโลกเกมเดียวกันให้ผลลัพธ์ไม่เหมือนกันโดยสิ้นเชิง นี่คือข้อจำกัดของการทดสอบแบบตัวชี้วัดในปัจจุบัน Liang เปิดเผยว่า OpenRouter กำลังพัฒนาฟีเจอร์การกำหนดเส้นทางงาน (task routing) ที่ก้าวหน้ายิ่งขึ้น ระบบจะเลือกโมเดลที่เหมาะที่สุดโดยอัตโนมัติตามบริบทของงานเฉพาะ ไม่ได้พึ่งพาการจัดอันดับตามลำดับบนตาราง
จากรายงานของ Liang “ภาษีการจัดแนว (alignment tax)” หมายถึงต้นทุนที่ LLM ต้องจ่ายระหว่างการฝึกเพื่อให้มีมารยาท ให้ความร่วมมือ และหลีกเลี่ยงการทำร้าย นิสัยการฝึกเหล่านี้เป็นข้อได้เปรียบในสถานการณ์เชิงร่วมมือ แต่ในเกมแบบศูนย์รวมศูนย์ (เช่น แนวสู้ตาย) ความระมัดระวังแบบ “คุยก่อนแล้วค่อยสู้” จะทำให้โมเดลพลาดจังหวะในการโจมตี และถูกกำจัดโดยคู่แข่งที่รุกมากกว่า Liang ใช้บันทึกพฤติกรรมที่ Claude แสดงในสนามจริงเพื่ออธิบายแนวคิดนี้
จากข้อมูลการทดลองของ Liang GPT 5.4 ทำ 38 เคิลทั้งรอบอยู่อันดับหนึ่งในบรรดาโมเดลทั้งหมด แต่ได้เพียง 2 ชัยชนะ โดยต้นทุนต่อชัยชนะ 61.44 ดอลลาร์สหรัฐ (สูงสุดในบรรดาโมเดลที่มีชัยชนะ) Liang ระบุว่าสะท้อนปัญหา “Kill ไม่เท่ากับ Win”: ในเกมแนวสู้ตาย กลไกการชนะคือการมีชีวิตรอดจนถึงรอบสุดท้าย ไม่ใช่การสังหารได้มากที่สุด หากเปลี่ยนเป็นกติกาเดธแมตช์ที่นับเฉพาะจำนวนการสังหาร GPT 5.4 จะเป็นแชมป์ และ Grok จะตกไปอยู่ช่วงกลางตาราง
Liang กล่าวว่า การทดลอง 30 รอบทั้งหมดใช้ต้นทุนการประมวลผลรวม 482 ดอลลาร์สหรัฐ เขาใช้ตัวเลขนี้ประเมินว่า หากเพิ่มโมเดลระดับเรือธงอย่าง Opus 4.7, GPT-5.5 หรือ Gemini Ultra ต้นทุนสำหรับ 30 รอบจะสูงถึงราว 3,000 ดอลลาร์สหรัฐ จึงล็อกเลือกโมเดลระดับกลางถึงสูงเป็นผู้เข้าร่วม การตั้งค่าการทดลองให้โมเดลแต่ละตัวไม่เปิดเผยชื่อด้วยตัวอักษร และไม่รู้ตัวตนของฝ่ายตรงข้าม Liang ในฐานะผู้ดำเนินรายการไม่เข้าไปแทรกแซงการกระทำใดๆ
news.related.news
DeepSeek ทฤษฎี 3 ไม่ชัดจบ: 梁文鋒 ลงทุน 20 พันล้าน หาผู้คนและพลังประมวลผลกดดันให้ต้องปรับตัวด้านเทคโนโลยี
SpaceX ซื้อ Cursor มูลค่า $60B ขณะที่นักลงทุนเรียกดีลนี้ว่าเป็นดีลที่ดีที่สุดนับตั้งแต่ Instagram
SpaceX ทุ่มงบ 60 พันล้านดอลลาร์เพื่อซื้อ Cursor ทำให้มูลค่าตลาดพุ่งแซง Microsoft ชั่วคราว
สำนักข่าวต่างประเทศเปิดเผย: OpenAI จะเปิดตัว GPT-5.6 ในวันที่ 23 มิถุนายน โดยมีราคาประเมินต่ำกว่าคลาวด์ เฟเบิล 5 อย่างมาก
OpenAI ขาดทุน 20.92 พันล้านดอลลาร์ในปี 2025 แม้รายได้พุ่งขึ้นสู่ 13.07 พันล้านดอลลาร์