Inception Labs' Mercury 2 ทำคะแนน 90 ใน AIME 2026 แซงหน้า DiffusionGemma ของ Google

Inception Labs เปิดตัว Mercury 2 ในวันพฤหัสบดี โดยวางตำแหน่งให้เป็นโมเดลภาษาสำหรับการให้เหตุผลที่เร็วที่สุดของโลก ทำความเร็วได้ราว 1,000 โทเคนต่อวินาที โมเดลทำคะแนนได้ 90 ในเกณฑ์ AIME 2026 โดยแซง DiffusionGemma ของ Google ที่เพิ่งเปิดตัว ซึ่งทำได้ 69.1% ในการทดสอบเดียวกัน ขณะเดียวกันก็มีความเร็วในการสร้างที่ใกล้เคียงกัน โมเดลทั้งสองใช้การสร้างแบบขนานด้วยแนวคิดการแพร่ (diffusion) แทนการประมวลผลโทเคนตามลำดับ สะท้อนการเปลี่ยนแปลงด้านสถาปัตยกรรมในอุตสาหกรรมไปสู่การอนุมานที่เร็วขึ้น

Mercury 2 แซง DiffusionGemma ในเกณฑ์คณิตศาสตร์

Mercury 2 สร้างได้ประมาณ 1,000 โทเคนต่อวินาที ซึ่งหมายถึง “ชิ้นส่วนของข้อความ” ที่โมเดล AI อ่านและเขียน เทียบกับราว 89 โทเคนต่อวินาทีของ Claude Haiku 4.5 Reasoning ของ Anthropic และ 71 โทเคนต่อวินาทีสำหรับ GPT-5 Mini ของ OpenAI ตามประกาศของ Inception Labs ใน AIME 2026 ซึ่งสร้างจากโจทย์จริงของ American Invitational Mathematics Examination และให้คะแนนตามร้อยละของคำตอบที่แก้ได้อย่างถูกต้อง Mercury 2 ทำได้ 90% Google ทดสอบ DiffusionGemma ในชุดเดียวกัน โดยทำได้ 69.1% ขณะที่ Gemma 4 แบบมาตรฐานที่ไม่ใช่การแพร่ ทำได้ 88.3% ในการทดสอบเดียวกัน

ใน GPQA ซึ่งเป็นเกณฑ์วิทยาศาสตร์ระดับปริญญาเอก ทั้งสองโมเดลแทบเสมอกัน: Mercury 2 ที่ 77% เทียบกับ DiffusionGemma ที่ 73.2% คู่มือสำหรับนักพัฒนาของ Google แนะนำ Gemma 4 แบบมาตรฐานสำหรับแอปพลิเคชันที่ต้องการคุณภาพสูงสุด โดยยอมรับว่า DiffusionGemma ตามหลังมันในทุกด้าน DiffusionGemma ให้ใช้ฟรีและเป็นแบบ open-weight บน Hugging Face ส่วน Mercury 2 เป็นโมเดล API แบบชำระเงินและปิด (closed-weight)

โมเดลการแพร่เข้ามาแทนการสร้างโทเคนแบบทีละคำตามลำดับ

โมเดลทั้งสองละทิ้งวิธีการเขียนแบบเครื่องพิมพ์ดีด โมเดลแชทมาตรฐานจะเขียนคำเดียว ตรวจสอบสิ่งที่เพิ่งเขียน แล้วค่อยเขียนคำถัดไป วนลูปไปเรื่อย ๆ จนกว่าจะได้คำตอบเสร็จสิ้น โมเดลการแพร่กลับเติมเต็มบล็อกของข้อความด้วยโทเคนตัวแทนแบบสุ่ม แล้วลบ “สัญญาณรบกวน” ออกผ่านรอบการประมวลผลแบบขนานหลายรอบ—เทคนิคเดียวกับที่ทำให้ภาพแบบนิ่งกลายเป็นภาพถ่ายในเครื่องมือสร้างภาพอย่าง Stable Diffusion—จนกว่าบล็อกทั้งหมดจะล็อกเป็นคำตอบที่เสร็จสมบูรณ์พร้อมกัน

Augment Code รายงานลดความหน่วง 82% ในการใช้งานจริง

Augment Code บริษัทเอเจนต์โค้ด AI ได้สลับ Mercury 2 มาใช้แทน Claude Opus 4.7 ของ Anthropic ใน context-compaction subagent และพบว่าความหน่วง (latency) ลดลง 82% และต้นทุนลดลง 90% พร้อมรายงานคุณภาพผลลัพธ์เท่าเดิม ตามรายงานกรณีศึกษาร่วม

Inception Labs ระดมทุนรอบ $50 ล้าน

Inception Labs ระดมทุน 50 ล้านดอลลาร์ โดยได้รับการสนับสนุนจากหน่วยธุรกิจร่วมทุนของ Nvidia และนักลงทุนรายบุคคลอย่าง Andrew Ng และ Andrej Karpathy สตาร์ทอัปนี้ต่อยอดจากงานวิจัยของ Stefano Ermon ผู้ก่อตั้ง ซึ่งเป็นศาสตราจารย์จาก Stanford และเป็นผู้ร่วมเขียนงานบางส่วนเกี่ยวกับเทคนิคการแพร่แบบให้คะแนน (score-based diffusion) ที่ขับเคลื่อนเครื่องสร้างภาพยุคปัจจุบัน

การสร้างแบบขนานช่วยให้สถาปัตยกรรมระบบหลายเอเจนต์ทำงานได้

ระบบ AI ที่ซับซ้อนก็เหมือนวงออร์เคสตราของผู้ช่วยเฉพาะทาง: หนึ่งสำหรับการให้เหตุผลเชิงลึก หลายตัวสำหรับการสรุปอย่างรวดเร็ว การจัดเส้นทาง การค้นหาเครื่องมือ และการตรวจสอบผลลัพธ์ โมเดลแบบลำดับทำให้การเรียกใช้ฟังก์ชันเหล่านี้มีค่าใช้จ่ายสูงและช้า โมเดลการแพร่แบบขนานทำให้การประมวลผลถูกลงและเร็วพอที่จะใช้งานอย่างแพร่หลายได้ Mercury 2 ตอนนี้เป็นแบบ API/คลาวด์ และระบบนิเวศเต็มรูปแบบ—รันไทม์ภายในเครื่อง เฟรมเวิร์กเอเจนต์—ยังอยู่ระหว่างการตามให้ทัน

เวิร์กโฟลว์ที่ไวต่อความเร็วได้ประโยชน์จากแนวทางการแพร่

กรณีใช้งานได้แก่ การเขียนโปรแกรมแบบเรียลไทม์ที่โมเดลทันกับการแก้ไข การเขียนโค้ดแบบหลายเอเจนต์หรือระบบช่วยเหลือที่มีการเรียกย่อยจำนวนมาก อินเทอร์เฟซเสียงที่ไม่รู้สึกล่าช้า และการเติมเต็มข้อความอัตโนมัติหรือการคาดการณ์การกระทำครั้งถัดไปที่ไวต่อความหน่วง ในระดับขนาดใหญ่ การประหยัดต้นทุนและพลังงานจากความสามารถในการทำงานได้มากขึ้นบนฮาร์ดแวร์มาตรฐานสะสมได้เร็ว ตามรายงานของ Inception Labs

FAQ

Inception Labs ประกาศอะไรในวันพฤหัสบดี? Inception Labs เปิดตัว Mercury 2 ในวันพฤหัสบดี โดยเรียกมันว่าเป็นโมเดลภาษาสำหรับการให้เหตุผลที่เร็วที่สุดของโลก โดยสร้างได้ราว 1,000 โทเคนต่อวินาที และทำคะแนนได้ 90 ในเกณฑ์ AIME 2026

Mercury 2 เทียบกับ DiffusionGemma ของ Google ในเกณฑ์การทดสอบอย่างไร? Mercury 2 ทำได้ 90 ใน AIME 2026 ขณะที่ DiffusionGemma ของ Google ทำได้ 69.1% ในการทดสอบเดียวกัน ใน GPQA ซึ่งเป็นเกณฑ์วิทยาศาสตร์ระดับปริญญาเอก Mercury 2 ทำได้ 77% เทียบกับ DiffusionGemma ที่ 73.2%

Augment Code รายงานการปรับปรุงด้านต้นทุนและความหน่วงอะไรบ้าง? Augment Code สลับ Mercury 2 มาใช้แทน Claude Opus 4.7 ของ Anthropic ใน context-compaction subagent และพบว่าความหน่วงลดลง 82% และต้นทุนลดลง 90% พร้อมรายงานคุณภาพผลลัพธ์เท่าเดิม ตามรายงานกรณีศึกษาร่วม

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น