
DeepSeek เมื่อวันที่ 24 เมษายน ได้เปิดตัวชุดตัวอย่าง V4 อย่างเป็นทางการ ภายใต้สัญญาอนุญาต MIT ที่เปิดซอร์ส โดยน้ำหนักของโมเดลได้ถูกอัปโหลดขึ้นใช้งานบน Hugging Face และ ModelScope แล้ว ตามรายงานทางเทคนิคของ DeepSeek V4 V4-Pro-Max (โหมดความสามารถในการอนุมานสูงสุด) ได้ 3206 คะแนนบนเกณฑ์มาตรฐาน Codeforces โดยทำได้ดีกว่า GPT-5.4
สเปกสถาปัตยกรรมของโมเดล MoE 2 แบบ
ตามรายงานทางเทคนิคของ DeepSeek V4 ชุด V4 ประกอบด้วยโมเดลแบบผสมผู้เชี่ยวชาญ (MoE) จำนวน 2 รุ่น:
V4-Pro: พารามิเตอร์รวม 1.6T ต่อ 1 โทเค็นเปิดใช้งาน 49B รองรับบริบท 1M token
V4-Flash: พารามิเตอร์รวม 284B ต่อ 1 โทเค็นเปิดใช้งาน 13B รองรับบริบท 1M token เช่นกัน
ตามรายงานทางเทคนิค ภายใต้บริบท 1M การอนุมาน FLOPs ต่อ 1 โทเค็นของ V4-Pro มีเพียง 27% ของ V3.2 และ KV cache ลดลงเหลือ 10% ของ V3.2 ซึ่งส่วนใหญ่เกิดจากการอัปเกรดสถาปัตยกรรมของกลไก attention แบบผสม (การบีบอัดความสนใจแบบพร่าบาง CSA + การบีบอัดความสนใจอย่างหนัก HCA) ขนาดข้อมูลสำหรับการพรีเทรนมีมากกว่า 32T token; ตัวอัปเดตของตัวเพิ่มประสิทธิภาพ (optimizer) เปลี่ยนเป็น Muon
แนวทางหลังการฝึกอบรม: การสตรีมไลน์การสอนแบบออนไลน์ (online) เพื่อแทนที่การเสริมแรงแบบผสม
ตามรายงานทางเทคนิคของ DeepSeek V4 การอัปเดตหลักของการฝึกหลังการฝึก (post-training) ของ V4 อยู่ที่การแทนที่ขั้นตอนการผสมการเรียนรู้แบบเสริมแรง (mixed RL) ของ V3.2 อย่างสิ้นเชิงด้วยการสอนแบบออน-พอลิซี่สตรีม (On-Policy Distillation, OPD) กระบวนการใหม่แบ่งเป็น 2 ขั้นตอน: ขั้นแรก ฝึกผู้เชี่ยวชาญรายโดเมนแยกกันสำหรับสาขาต่างๆ เช่น คณิตศาสตร์ โค้ด Agent และการติดตามคำสั่ง ฯลฯ (SFT + GRPO การเรียนรู้แบบเสริมแรง); จากนั้น ใช้ OPD จากครูหลายคน (multi-teacher) เพื่อกลั่นความสามารถของผู้เชี่ยวชาญมากกว่า 10 คนให้เป็นโมเดลเดียว โดยใช้การจัดแนวด้วย logit เพื่อหลีกเลี่ยงความขัดแย้งของความสามารถที่พบบ่อยในวิธีการแบบดั้งเดิม
รายงานยังได้แนะนำโมเดลรางวัลแบบสร้าง (Generative Reward Model, GRM) เพื่อจัดการงานที่ยากต่อการตรวจสอบด้วยกฎ โดยใช้ข้อมูลการติดฉลากจากมนุษย์ที่มีจำนวนเล็กน้อยและหลากหลายในการฝึก เพื่อให้โมเดลสามารถรับทั้งบทบาทในการสร้างและการประเมิน
ผลการทดสอบมาตรฐาน: การเขียนโค้ดนำหน้า แต่การคิดเชิงความรู้ยังมีช่องว่าง
ตามรายงานทางเทคนิคของ DeepSeek V4 ผลการเปรียบเทียบของ V4-Pro-Max กับ Opus 4.6 Max, GPT-5.4 xHigh และ Gemini 3.1 Pro High (ไม่รวม GPT-5.5 และ Opus 4.7 ที่เปิดตัวเมื่อไม่นานมานี้):
Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ สูงสุดในทั้งสนาม
LiveCodeBench:93.5 → สูงสุดในทั้งสนาม
SWE Verified:80.6 โดยตามหลัง Opus 4.6 ที่ 80.8 อยู่ 0.2 จุดเปอร์เซ็นต์
GPQA Diamond:90.1 โดยตามหลัง Gemini 3.1 Pro ที่ 94.3
SimpleQA-Verified:57.9 โดยตามหลัง Gemini 3.1 Pro ที่ 75.6
HLE:37.7 โดยตามหลัง Gemini 3.1 Pro ที่ 44.4
รายงานทางเทคนิคยังชี้ด้วยว่า การเปรียบเทียบข้างต้นไม่รวม GPT-5.5 และ Opus 4.7 ที่เปิดตัวล่าสุด และความแตกต่างระหว่าง V4 กับโมเดลปิดซอร์สเจนเนอเรชันล่าสุด ยังต้องรอการตรวจสอบด้วยการประเมินจากบุคคลที่สาม
คำถามที่พบบ่อย
เงื่อนไขลิขสิทธิ์แบบเปิดซอร์สของ DeepSeek V4 รุ่นตัวอย่างคืออะไร และสามารถรับได้ที่ไหน?
ตามประกาศอย่างเป็นทางการของ DeepSeek วันที่ 24 เมษายน V4 ถูกเปิดซอร์สภายใต้สัญญาอนุญาต MIT โดยน้ำหนักโมเดลได้ขึ้นให้ใช้งานแล้วบน Hugging Face และ ModelScope เหมาะสำหรับทั้งการใช้งานเชิงพาณิชย์และเชิงวิชาการ
ความแตกต่างของขนาดพารามิเตอร์ระหว่าง DeepSeek V4-Pro และ V4-Flash คืออะไร?
ตามรายงานทางเทคนิคของ DeepSeek V4 V4-Pro มีพารามิเตอร์รวม 1.6T ต่อ 1 โทเค็นเปิดใช้งาน 49B; V4-Flash มีพารามิเตอร์รวม 284B ต่อ 1 โทเค็นเปิดใช้งาน 13B โมเดลทั้งสองรองรับบริบท 1M token
ผลการเปรียบเทียบเชิงมาตรฐานของ DeepSeek V4-Pro-Max กับ GPT-5.4 และ Gemini 3.1 Pro เป็นอย่างไร?
ตามรายงานทางเทคนิคของ DeepSeek V4 V4-Pro-Max ทำผลงานเหนือ GPT-5.4 และ Gemini 3.1 Pro ในเกณฑ์มาตรฐาน Codeforces (3206 คะแนน) และ LiveCodeBench (93.5) แต่ยังตามหลัง Gemini 3.1 Pro ในเกณฑ์มาตรฐานที่เน้นความหนาแน่นของความรู้ (GPQA Diamond, SimpleQA-Verified, HLE); ชุดการเปรียบเทียบไม่รวม GPT-5.5 และ Opus 4.7