ผู้นำด้าน AI ถกเถียงการแยกความแตกต่างของโมเดลและโอกาสด้านปัญญาเชิงสรรพสิ่ง (Embodied Intelligence) ของจีน ในการประชุม Zhiyuan

ผู้นำในอุตสาหกรรมที่งาน Beijing Zhiyuan Conference ถกเถียงความกังวลเกี่ยวกับการทำให้โมเดล AI มีความเหมือนกัน (homogenization) ขณะที่ประสิทธิภาพการประเมินของโมเดลชั้นนำเริ่มบรรจบกันมากขึ้น และช่องว่างระหว่างโมเดลโอเพนซอร์สกับปิดซอร์สเชื่อกันว่าเหลือเพียง 3-6 เดือน Bluerun Ventures Managing Partner เฉิน เว่ยกวง, ผู้อำนวยการ Zhiyuan Research Institute หวาง จงหยวน, ผู้ก่อตั้งและ CTO ของ Galaxy General หวาง เหอ และ CEO ของ MiniMax หลี่ ต้าห่าย ได้ร่วมกันพูดคุยถึงแหล่งที่มาของคุณค่าในระยะยาวในยุคโมเดลขนาดใหญ่ โดยพาเนลได้ตอบว่าโมเดล AI และอุตสาหกรรมปัญญาเชิงสรรพสิ่ง (embodied intelligence) กำลังมุ่งสู่ความเหมือนกันหรือไม่ และข้อได้เปรียบเชิงการแข่งขันที่คงทนอยู่ตรงไหน ผู้สังเกตการณ์มองว่า “บุคลากร” คือกุญแจในการแข่งขัน AI ระหว่างสหรัฐฯ-จีน โดย embodied intelligence คือโอกาสของจีนในการสร้างช่วงเวลาหักเห (breakthrough) ที่เทียบได้กับ AlphaGo และ ChatGPT

ผู้นำอุตสาหกรรมปฏิเสธความกังวลเรื่องการทำให้โมเดลเหมือนกันที่งาน Zhiyuan Conference

หวาง จงหยวนกล่าวว่า แม้กระดานผู้นำโมเดลขนาดใหญ่หลายรายการจะทำให้มึนงง และอันดับเองก็ไม่น่าเชื่อถือทั้งหมด แต่บริษัทโมเดลที่กล้าลงมือสาธิตแบบสดและเข้าสู่สถานการณ์ในโลกจริงกลับแสดงความมั่นใจ และสามารถพบ “ลูปปิดของข้อมูล” ในสถานการณ์จริงได้ เขากล่าวว่าโดยรวมการพัฒนารอบประสิทธิภาพของโมเดลขนาดใหญ่ยังห่างไกลจากการติดเพดาน เส้นทางเชิงเทคนิคยังไม่ได้บรรจบกัน และอนาคตอาจมีหลายรูปแบบ รวมถึง “พลังอันยิ่งใหญ่หนึ่งเดียวพร้อมผู้เล่นที่แข็งแกร่งหลายราย” หรือ “ยักษ์ใหญ่หลายตัวที่ยืนเคียงข้างกัน” หวางประเมินว่าการอ้างว่าอุตสาหกรรมจะมุ่งสู่ homogenization นั้นยังเร็วเกินไป

หวาง เหอ ผู้ก่อตั้ง Galaxy General ต่อขยายการถกเถียงจากโมเดลภาษาขนาดใหญ่ไปสู่ embodied intelligence เขากล่าวว่าโมเดลภาษาขนาดใหญ่อยู่ตัวเองยังมีตัวแปรจำนวนมาก โดยความไม่แน่นอนมากขึ้นในความสามารถด้านมัลติโหมดและการเข้าใจวิดีโอ หวางมองว่า embodied intelligence ในปัจจุบันอยู่ที่ “ขั้นจาก GPT-1 ไป GPT-2” และอุตสาหกรรมเพิ่งเข้าสู่ช่วงเร่งความเร็ว

หวาง เหอ อธิบายคูเมืองเชิงการแข่งขันของ embodied intelligence ว่าเป็นระบบครบวงจรที่ครอบคลุมถึงการจัดหา “ข้อมูลต้นทาง” (ข้อมูลสังเคราะห์ ข้อมูลมนุษย์ ข้อมูลหุ่นยนต์) ความสามารถในการปรับแต่งข้อมูล การทำซ้ำของฮาร์ดแวร์และการออกแบบร่วมฮาร์ดแวร์-ซอฟต์แวร์ ความสามารถในการหลอมรวมความสามารถด้าน throughput ของโมเดล และความสามารถในการส่งมอบฮาร์ดแวร์ขั้นสุดท้าย เขามองว่านี่คือ “ระบบนักรบหกเหลี่ยม” แบบครบองค์ประกอบ โดยยืนยันว่าไม่มีผลิตภัณฑ์ที่โตเต็มที่ลักษณะนี้ทั่วโลก และคูเมืองยังลึกมาก

หลี่ ต้าห่าย CEO ของ MiniMax ยกความสำเร็จเชิงพาณิชย์ของ Anthropic เป็นหลักฐานโดยตรงสวนทางกับ homogenization เขากล่าวว่าโมเดลขนาดใหญ่ไม่สามารถเป็นเพียง “พรสวรรค์แบบ T” ที่มีความสามารถเชิงทั่วไปแนวนอนเท่านั้น แต่ต้องมีจุดแข็งแนวตั้ง หลี่อธิบายว่า Anthropic กลายเป็นปรากฏการณ์ระดับโลกเพราะบริษัทสร้างความสามารถด้านการเขียนโค้ดขึ้นสู่ระดับที่ไม่เคยมีใครเทียบได้บนฐานรากของโมเดลทั่วไป ซึ่งช่วยหนุนให้มีมูลค่าสูงและผลงานเชิงพาณิชย์ที่น่าประทับใจ

หลี่กล่าวว่าโมเดลขนาดใหญ่กำลัง “ฝังตัว” เข้าสู่วิวัฒนาการของระบบ มากกว่าจะเป็นเพียงจุดเทคนิคที่แยกกัน เขากล่าวว่าในอนาคตการเพิ่มประสิทธิภาพโมเดลต้องประสานกับสถานการณ์การใช้งานอย่างลึกซึ้ง เปรียบเหมือนการออกแบบเครื่องยนต์ที่ต้องประสานกับทั้งคัน โดยทิศทางการเพิ่มประสิทธิภาพสำหรับรถแข่ง F1 แตกต่างโดยสิ้นเชิงจากรถที่ใช้ซื้อของชำ หลี่กล่าวว่า “ความเป็นสากลเชิงเทคนิค” และ “ความเป็นสากลเชิงพาณิชย์” ต้องแยกจากกัน เพราะการทำให้ประสบความสำเร็จเชิงพาณิชย์ต้องอาศัยการเพิ่มประสิทธิภาพโมเดลที่เจาะจงสถานการณ์อย่างสุดขั้ว ทำให้แต่ละบริษัทสามารถสร้างคูเมืองของตัวเองได้ด้วยการหาทิศทางที่เหมาะสม

Galaxy General รายงาน embodied intelligence อยู่ในขั้นจาก GPT-1 ถึง GPT-2

หวาง เหอ แบ่งปันแนวทางปฏิบัติของ Galaxy General ตามกรอบ WAM (World Action Model) ก่อนที่แนวคิด WAM จะเกิดขึ้น Galaxy General ใช้ข้อมูลจำลอง 1 พันล้านเฟรมเพื่อพิสูจน์ความเป็นไปได้ของการสเกลสำหรับทักษะการหยิบจับ บริษัทพัฒนา GRASP-VLA เพื่อให้สามารถหยิบจับแบบ zero-shot วัตถุใดๆ ได้ โดยไม่มีโมเดลใดที่พึ่งข้อมูล teleoperation แบบควบคุมระยะไกลจากของจริงแล้วไปถึงระดับประสิทธิภาพที่เทียบได้ ณ ตอนนี้

หวางอธิบายว่า การเกิดขึ้นของกรอบ WAM ทำลาย “คอขวดของข้อมูล” สำหรับ embodied intelligence อย่างสิ้นเชิง โมเดล VLA แบบดั้งเดิมต้องใช้ข้อมูลที่มี action labels และพึ่งพาข้อมูลจากหุ่นยนต์เท่านั้น ในขณะที่ WAM ยึด “Action” เป็นแกนกลาง ทำแผนการกระทำระดับภาพผ่านการคาดการณ์อนาคต โดยไม่จำเป็นต้องใช้ action labels นี่หมายความว่าหุ่นยนต์สามารถเรียนรู้ตรรกะพฤติกรรมโดยตรงจากวิดีโอของมนุษย์ และข้อมูลวิดีโอมนุษย์จำนวนมหาศาลจะกลายเป็นสื่อสำหรับการเทรน

หวางกล่าวว่า Galaxy General เผยแพร่ paper WAM ฉบับแรกของโลกในเดือนมีนาคม 2025 และในเดือนเมษายน Jim Fan ผู้อำนวยการ NVIDIA Embodied Intelligence Lab ระบุว่า endgame ของหุ่นยนต์คือ WAM หวางมองว่าการ pre-training ของ embodied intelligence กำลังเข้าสู่ช่วงที่ระเบิดความสามารถ โดยไม่มีข้อจำกัดเรื่องการได้มาซึ่งข้อมูล เขากล่าวว่าในอีก 2 ปีข้างหน้า embodied intelligence จะพาอุตสาหกรรมเข้าสู่ช่วง GPT-3.5 อย่างเต็มรูปแบบ โดย “บัตรผ่าน” คือข้อมูลคุณภาพสูงระดับหลายหมื่นล้านชั่วโมง และเงินลงทุนระดับหลายพันล้าน

AI มัลติโหมดและ embodied intelligence เปิดเส้นทางการสเกลใหม่

หวาง จงหยวน เปิดเผยว่า การถกเถียงเรื่อง Scaling Law ล้มเหลวของอุตสาหกรรมเมื่อปีที่แล้ว มาจากความกังวลว่า “ข้อมูล pre-training จากอินเทอร์เน็ตถูกใช้งานหมดแล้ว” ในช่วง 2 ปีที่ผ่านมา หลังการเทรน การเพิ่มประสิทธิภาพด้านการให้เหตุผล และ Agent การวิวัฒนาการตัวเองแบบวนซ้ำ ได้สร้างคลื่นใหม่ของการปรับปรุงความสามารถ หวางกล่าวว่านี่ไม่ได้หมายความว่าพารามิเตอร์ในโมเดลจะเพิ่มขึ้นเสมอไป แต่ทั้งระบบกลับมีความสามารถมากขึ้นเรื่อยๆ โดย AI กำลังเปลี่ยนจากเครื่องมือสำหรับแชตไปเป็นเครื่องมือสำหรับการลงมือปฏิบัติ

ในฐานะสถาบันวิจัย Zhiyuan กำลังสำรวจเส้นโค้งการเติบโตของสติปัญญารอบถัดไป ในช่วง 2 ปีที่ผ่านมา สถาบันได้ยืนยันกรอบการสเกลในด้านมัลติโหมด โดยชุด Wujie Emu3 ใช้ข้อมูลมัลติโหมดน้อยกว่า 1% และพารามิเตอร์หลายหมื่นล้านตัวก็แสดงการปรับปรุงประสิทธิภาพที่ชัดเจนแล้ว ปัจจุบันสถาบันได้เริ่มเดินหน้าสู่ world foundation models สำหรับโลกทางกายภาพ โดยสำรวจเส้นทางการสเกลของ world models

หลี่ ต้าห่าย เสนอ “กฎความหนาแน่นของความรู้” ของ MiniMax: สติปัญญาของโมเดลขนาดใหญ่โดยรวม = ความหนาแน่นของความรู้ × จำนวนพารามิเตอร์ เขาเปิดเผยว่าเมื่อปีที่แล้ว ตอนนำโมเดลฝั่งเอดจ์ไปใช้กับบริษัทออโตโมทีฟ พวกเขาทำได้เพียง 1B พารามิเตอร์ ปีนี้อัปเกรดเป็น 4B และปีหน้าอาจไปถึงระดับหลายหมื่นล้าน ในขณะที่เทคโนโลยีการ quantization ดีขึ้นและความหนาแน่นของความรู้เพิ่มขึ้น โมเดลที่แข็งแกร่งหลัง quantization จะใช้ทรัพยากรเท่าเดิมกับก่อนหน้า โดยการขยายสเกลของโมเดลฝั่งเอดจ์เพิ่งเริ่มต้น

หลี่กล่าวว่า “ข้อสรุปเป็นช่วงๆ” หลายอย่างในอุตสาหกรรมมีอายุการใช้งานสั้นมาก เพราะการพัฒนามักโค่นทับความเข้าใจเดิมตลอดเวลา เขากล่าวว่าไม่เพียงแต่โมเดลฝั่งเอดจ์ยังมีพื้นที่เติบโตมหาศาลเท่านั้น โมเดลภาษาขนาดใหญ่ยังมีศักยภาพด้านการประมวลผล context ที่ยาวนานและการเพิ่มประสิทธิภาพที่ใช้พลังงานต่ำ ซึ่งยังห่างไกลจากการถูกสำรวจจนหมด และอุตสาหกรรมยังไกลจากการเข้าสู่ระยะบรรจบกัน

พาเนลชี้ข้อได้เปรียบด้านซัพพลายเชนและบุคลากรของจีน

หวาง จงหยวนกล่าวว่า การพัฒนาเทคโนโลยี AI เดินตามเส้นทางเดียวกับการขับขี่อัตโนมัติ โดยจำเป็นต้องผ่านกระบวนการจากความกังวลและความกลัว สู่การปรับตัวและการใช้งาน แล้วจึงไปสู่การจัดตั้งระบบกำกับดูแลที่ครบถ้วนและกลไกการจัดสรรความรับผิดชอบ เมื่อเทคโนโลยีสามารถเพิ่มผลผลิตได้ 3-5 เท่า การทำให้เป็นที่นิยม (popularization) ย่อมไม่อาจถูกขวางได้ และมนุษยชาติที่ผ่านคลื่นเทคโนโลยีมาแล้วหลายรอบ จะสามารถหาวิธีแก้ด้านกำกับดูแลที่สอดคล้องกันได้

หลี่ ต้าห่ายกล่าวว่า สังคมมนุษย์พัฒนาโดยแก่นแท้แล้วคือ “การเรียนรู้จากความผิดพลาด” — กฎความปลอดภัยของเครื่องบิน และขีดจำกัดความเร็วบนถนนต่างก็มีบทเรียนที่เจ็บปวดอยู่เบื้องหลัง เทคโนโลยี AI จะช่วยเพิ่มประสิทธิภาพในการค้นหาช่องโหว่และแก้ปัญหา ลดต้นทุนนี้ลงมาก โดยอุตสาหกรรมให้ความสำคัญกับฐานความปลอดภัยตั้งแต่ระยะเริ่มต้น และบริษัทจะรับผิดชอบต่อสังคมอย่างเชิงรุก หลี่กล่าวว่า รูปแบบการเรียนรู้จากความผิดพลาดอาจหลีกเลี่ยงได้ยากโดยสิ้นเชิง และความเสี่ยงด้านความปลอดภัยมักปรากฏจากมิติที่ไม่คาดคิด ทำให้การปรับกฎด้วยบทเรียนกลายเป็นความจริงที่ต้องเผชิญ

สำหรับข้อได้เปรียบเชิงการแยกตัวของจีนใน AI หวาง จงหยวนกล่าวว่า ซัพพลายเชนของจีน ข้อได้เปรียบด้านการผลิต และตลาดในประเทศขนาดใหญ่พอที่จะบ่มเพาะและเร่งให้เกิดการนำเทคโนโลยีใหม่ไปใช้ โดย embodied intelligence และ world models มีแนวโน้มจะเป็นพื้นที่ที่จีนสามารถสร้างความเป็นผู้นำที่แตกต่างได้

หวาง เหอกล่าวอย่างหนักแน่นว่า embodied intelligence คือโอกาสของจีน เขาแสดงความเชื่อมั่นว่า “ช่วง AlphaGo” และ “ช่วง ChatGPT” ของ embodied intelligence จะเกิดขึ้นในจีนทั้งคู่ โดยกล่าวว่า หากทำ zero to one ให้สำเร็จในจีนได้ one to one hundred ก็จะต้องเติบโตสุกงอมในจีน

หลี่ ต้าห่ายเสริมปัจจัยพื้นฐานที่สุด: จีนมีจำนวน “ผู้มีความสามารถด้าน AI รุ่นใหม่ที่ฉลาดที่สุดในโลก” มากที่สุด ซึ่งเป็นข้อได้เปรียบพื้นฐานที่สุด เมื่อรวมกับข้อได้เปรียบด้านซัพพลายเชน ระบบนิเวศ และสถานการณ์การใช้งานแล้ว จีนจะต้องก้าวหน้าอย่างมีนัยสำคัญในด้าน AI อย่างแน่นอน

คำถามที่พบบ่อย (FAQ)

Galaxy General บอกว่า embodied intelligence ไปถึงขั้นไหนแล้ว?

หวาง เหอ ผู้ก่อตั้งและ CTO ของ Galaxy General ระบุในงาน Beijing Zhiyuan Conference ว่า ปัจจุบัน embodied intelligence อยู่ที่ “ขั้นจาก GPT-1 ไป GPT-2” และอุตสาหกรรมเพิ่งเข้าสู่ช่วงเร่งความเร็ว หวางกล่าวว่าในอีก 2 ปีข้างหน้า embodied intelligence จะพาอุตสาหกรรมเข้าสู่ช่วง GPT-3.5 อย่างเต็มรูปแบบ โดย “บัตรผ่าน” คือข้อมูลคุณภาพสูงระดับหลายหมื่นล้านชั่วโมง และเงินลงทุนระดับหลายพันล้าน

พาเนลตอบสนองต่อความกังวลเรื่องการทำให้โมเดล AI มีความเหมือนกันอย่างไร?

หวาง จงหยวน ผู้อำนวยการ Zhiyuan Research Institute กล่าวว่า การวนปรับปรุงประสิทธิภาพของโมเดลขนาดใหญ่อยู่ภาพรวมยังห่างไกลจากการติดเพดาน และเส้นทางเชิงเทคนิคยังไม่บรรจบกัน โดยมองว่าการกล่าวอ้างเรื่อง homogenization นั้นยังเร็วเกินไป หลี่ ต้าห่าย CEO ของ MiniMax ยกความสำเร็จของ Anthropic ในความสามารถด้านการเขียนโค้ดเป็นหลักฐานว่า บริษัทสามารถสร้างความแตกต่างผ่านจุดแข็งแนวตั้งได้ หวาง เหอ ของ Galaxy General อธิบายว่าคูเมืองเชิงการแข่งขันของ embodied intelligence เป็นระบบครบวงจรที่ครอบคลุมการจัดหา data การทำซ้ำของฮาร์ดแวร์ และความสามารถของโมเดล โดยบอกว่าไม่มีผลิตภัณฑ์ที่โตเต็มที่ลักษณะนี้อยู่ทั่วโลก

พาเนลระบุข้อได้เปรียบอะไรบ้างสำหรับการพัฒนา AI ของจีน?

ผู้เข้าร่วมพาเนลระบุข้อได้เปรียบของจีนหลายด้าน หวาง จงหยวนชี้ว่าซัพพลายเชน ข้อได้เปรียบด้านการผลิต และตลาดในประเทศขนาดใหญ่ของจีนพอที่จะเร่งให้เกิดการนำเทคโนโลยีใหม่ไปใช้ หลี่ ต้าห่ายกล่าวว่าจีนมีจำนวนผู้มีความสามารถด้าน AI รุ่นใหม่ที่ฉลาดที่สุดในโลกมากที่สุด ซึ่งเป็นข้อได้เปรียบพื้นฐานที่สุด หวาง เหอแสดงความเชื่อมั่นว่าช่วงเวลาหักเหของ embodied intelligence ที่เทียบได้กับ AlphaGo และ ChatGPT จะเกิดขึ้นในจีน โดยกล่าวว่า หากทำ zero to one ให้สำเร็จในจีนได้ one to one hundred ก็จะต้องเติบโตสุกงอมในจีน

news.article.disclaimer
btc.bar.articles

แดน เอวิส คาดว่า การควบรวมกิจการระหว่าง SpaceX และ Tesla มีแนวโน้มเกิดขึ้นภายใน 1 ปี

Lucas Bennett2 ชั่วโมง ที่แล้ว

ซีอีโอของ Microsoft นาย Nadella เสนอกรอบงาน AI ด้านทุนมนุษย์และทุนโทเคน

Oliver Grant5 ชั่วโมง ที่แล้ว

ซีอีโอของ MiniMax: ข้อมูลเชิงลึกของโมเดล Edge เทียบได้กับ GPT-4 แต่เทคโนโลยีด้านเอเจนต์ยังต้องใช้เวลา

Oliver Grant7 ชั่วโมง ที่แล้ว

ซีอีโอไมโครซอฟต์: กำแพงเมือง AI คือการเรียนรู้แบบลูปปิด และองค์กรไม่สามารถมอบหมายการเรียนรู้ออกไปให้ผู้อื่นได้

Market Whisper8 ชั่วโมง ที่แล้ว

Raoul Pal: กำลังคอมพิวท์เข้ามาแทนที่เงินทุน คอขวดของ AI จะกระตุ้นกระแสเงินทุนคริปโตรอบใหม่ “คลื่นลูกที่ 3”

Market Whisper10 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น