DeepSeek เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ด้วยพารามิเตอร์ 1.6T และใบอนุญาต MIT

ข่าวประตูเมือง (Gate News) วันที่ 24 เมษายน — DeepSeek ได้เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ภายใต้ใบอนุญาต MIT โดยน้ำหนัก (weights) พร้อมใช้งานแล้วบน Hugging Face และ ModelScope ซีรีส์นี้ประกอบด้วยโมเดล (MoE) แบบ mixture-of-experts จำนวน 2 รุ่น ได้แก่ V4-Pro มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และเปิดใช้งาน 49 พันล้านตัวต่อโทเค็น และ V4-Flash มีพารามิเตอร์รวม 284 พันล้านตัว และเปิดใช้งาน 13 พันล้านตัวต่อโทเค็น ทั้งสองรองรับหน้าต่างบริบท (context window) 1 ล้านโทเค็น

สถาปัตยกรรมประกอบด้วยการอัปเกรดหลัก 3 ประการ: กลไกความสนใจแบบไฮบริดที่ผสาน (CSA) (compressed sparse attention) และ (HCA) (heavily compressed attention) ซึ่งช่วยลดค่าใช้จ่ายในการรองรับบริบทระยะยาวได้อย่างมีนัยสำคัญ—ค่า FLOPs สำหรับการอินเฟอเรนซ์ของ V4-Pro ในบริบท 1M อยู่ที่เพียง 27% ของ V3.2 และ (VRAM สำหรับแคช KV ที่ใช้จัดเก็บข้อมูลประวัติศาสตร์ระหว่างการอินเฟอเรนซ์) อยู่ที่เพียง 10% ของ V3.2; การเชื่อมต่อไฮเปอร์ลิงก์แบบ manifold-constrained (mHC) ที่มาแทนการเชื่อมต่อ residual แบบดั้งเดิมเพื่อเพิ่มเสถียรภาพของการส่งสัญญาณข้ามเลเยอร์ และตัวเพิ่มประสิทธิภาพ (optimizer) Muon เพื่อการฝึกที่บรรจบเร็วขึ้น การพรีเทรนนิ่งใช้ข้อมูลมากกว่า 32 ล้านล้านโทเค็น

การโพสต์เทรนนิ่งใช้แนวทางแบบสองขั้นตอน: ขั้นแรกฝึกผู้เชี่ยวชาญเฉพาะโดเมนผ่านการ fine-tuning แบบมีผู้สอน (supervised fine-tuning) (SFT) และการเรียนรู้เสริมด้วยการเสริมแรง GRPO จากนั้นจึงรวมเข้าด้วยกันเป็นโมเดลเดียวผ่านการกลั่นความรู้แบบออนไลน์ V4-Pro-Max (highest inference mode) อ้างว่าเป็นโมเดลโอเพนซอร์สที่แข็งแกร่งที่สุด พร้อมตัวชี้วัดด้านการเขียนโค้ดระดับแนวหน้า และช่องว่างที่แคบลงอย่างมากเมื่อเทียบกับโมเดลยุคหน้าแบบปิด (closed-source) ในงานด้านการให้เหตุผลและงานของเอเจนต์ V4-Flash-Max บรรลุประสิทธิภาพด้านการให้เหตุผลระดับ Pro เมื่อมีงบประมาณการคำนวณเพียงพอ แต่ถูกจำกัดด้วยขนาดพารามิเตอร์ในงานด้านความรู้ล้วนและงานเอเจนต์ที่ซับซ้อน น้ำหนักถูกจัดเก็บในความแม่นยำแบบผสม FP4+FP8.

news.article.disclaimer

btc.bar.articles

วิศวกรของ OpenAI Clive Chan ท้าทายคำแนะนำด้านฮาร์ดแวร์ของ V4 โดยชี้ให้เห็นข้อผิดพลาดและความคลุมเครือเมื่อเทียบกับ V3

ข่าวประจำประตู ประจำวันที่ 24 เมษายน — วิศวกรของ OpenAI ชื่อ Clive Chan ได้ยื่นคัดค้านอย่างละเอียดต่อบทแนะนำด้านฮาร์ดแวร์ในรายงานทางเทคนิค V4 โดยกล่าวว่าเมื่อเทียบกับเวอร์ชัน V3 ที่ได้รับคำชม มันเป็น "ค่อนข้างห่วยและเสี่ยงต่อข้อผิดพลาดอย่างน่าประหลาดใจ" คำแนะนำด้านฮาร์ดแวร์ของ V3 ซึ่งมีเซสชัน Q&A

GateNews30 นาที ที่แล้ว

Naver เปิดตัว AI Tab รุ่นเบต้า ขณะที่ Google Gemini ก้าวเข้าสู่ตลาดการค้นหาในเกาหลีใต้

ประกาศข่าว Gate ประจำวันที่ 24 เมษายน — Naver ประกาศเริ่มการทดสอบแบบปิดสำหรับ AI Tab ซึ่งเป็นฟีเจอร์การค้นหาแบบสนทนาใหม่ หลังจากที่ Google เปิดตัว Gemini ใน Chrome ในเกาหลีใต้ AI Tab จะปรากฏควบคู่ไปกับแท็บการค้นหาที่มีอยู่ของ Naver โดยมอบพื้นที่เฉพาะสำหรับคำถามแบบสนทนา

GateNews42 นาที ที่แล้ว

การจ้างงานวิศวกรรม AI ในอินเดียพุ่งขึ้น 59.5% ขยายขอบเขตออกนอกศูนย์กลางเทคโนโลยี

รายงานตลาดแรงงานด้าน AI ของ LinkedIn ประจำปี 2026 ซึ่งเผยแพร่เมื่อวันที่ 24 เมษายน ระบุว่า การจ้างงานด้านวิศวกรรม AI ในอินเดียเพิ่มขึ้น 59.5% เมื่อเทียบกับปีก่อน โดยถือเป็นอัตราที่เร็วที่สุดในบรรดาตลาดที่แพลตฟอร์มได้ทำการศึกษา การเติบโตดังกล่าวได้รับแรงหนุนจากความต้องการที่ขยายออกไปนอกศูนย์กลางเทคโนโลยีที่เป็นที่ยอมรับ เมืองต่างๆ รวมถึง

CryptoFrontier1 ชั่วโมง ที่แล้ว

ธนาคารคอมมอนเวลธ์ลดงาน 120 ตำแหน่งท่ามกลางการขยายตัวของ AI

ธนาคารเครือจักรภพออสเตรเลีย (Commonwealth Bank of Australia) ประกาศว่าจะลดตำแหน่งงานประมาณ 120 ตำแหน่ง เนื่องจากธนาคารที่ใหญ่ที่สุดของประเทศทำการทบทวนบทบาทต่างๆ และขยายการใช้งานปัญญาประดิษฐ์ ตามรายงานของ Bloomberg การลดดังกล่าวรวมถึง 43 ตำแหน่งที่ Bankwest ในรัฐเวสเทิร์นออสเตรเลีย โดยมี 6 ตำแหน่งได้รับผลกระทบจากระบบอัตโนมัติ นี่เป็น…

CryptoFrontier1 ชั่วโมง ที่แล้ว

Cursor เปิดเผยเหตุผลในการฝึก XAI: กำลังประมวลผลติดขัด จึงมี SpaceX คว้าตัวเลือกการซื้อด้วยเงิน 60 พันล้านดอลลาร์สหรัฐฯ

Anysphere ประกาศว่า Cursor จะร่วมกับ xAI เพื่อฝึกโมเดลใหม่โดยใช้โครงสร้างพื้นฐาน Colossus เพื่อก้าวข้ามคอขวดด้านพลังการประมวลผล; SpaceX เสนอสิทธิเลือกซื้อ 60 พันล้านดอลลาร์สหรัฐ (สามารถซื้อกิจการได้ทั้งหมดภายในปี 2026) หากไม่ทำก็จะจ่ายราว 10 พันล้านดอลลาร์สหรัฐเป็นค่าชดเชยความร่วมมือ ทั้งสองรายการดำเนินไปพร้อมกัน โดยจะเปลี่ยนแปลงว่าใครสามารถฝึก Cursor และใครสามารถซื้อ Cursor ได้ แม้ว่า Cursor จะยังรองรับแบ็กเอนด์ของโมเดลหลายตัว แต่ในระยะยาวจะขึ้นอยู่กับว่า SpaceX จะใช้สิทธิการซื้อหรือไม่

ChainNewsAbmedia1 ชั่วโมง ที่แล้ว

Anthropic มูลค่าตลาดรองทะลุ 1 ล้านล้านดอลลาร์: Forge Global แซงหน้า OpenAI ที่ 8,800 ล้านล้าน

ตามรายงานของ Decrypt การประเมินมูลค่าระดับซีรีส์ (secondary) ของ Forge Global ในฝั่งของ Anthropic อยู่ที่ราว 1 ล้านล้านดอลลาร์ ขณะที่ OpenAI อยู่ที่ประมาณ 880 พันล้านดอลลาร์ โดยมีการเกิดขึ้นครั้งแรกของการแซงกลับในตลาดรอง มูลค่า ARR ของ Anthropic เพิ่มจากราว 9 หมื่นล้านดอลลาร์ ณ ปลายปี 2025 เป็นประมาณ 3 แสนล้านดอลลาร์ในเดือนมีนาคม 2026 โดยเติบโต 233% ในเวลา 3 เดือน ซึ่งช่วยหนุนให้การประเมินมูลค่าในตลาดเอกชนเพิ่มสูงขึ้น การประเมินมูลค่าในตลาดรองนั้นต่างจากรอบการระดมทุนในตลาดหลัก (primary) สะท้อนถึงความเชื่อมั่นในด้านการออกจากการลงทุน (exit) ในอนาคตยังคงต้องจับตา 4 ช่องทาง ได้แก่ เทคโนโลยี นโยบาย ธุรกิจ และการเล่าเรื่อง (narrative)

ChainNewsAbmedia1 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น