أطلقت DeepSeek النسخة التجريبية المفتوحة المصدر V4، وحصلت على درجة تقنية 3206 متفوقة على GPT-5.4

DeepSeek V4開源預覽版

أطلقت DeepSeek رسميًا سلسلة المعاينة V4 في 24 أبريل، مع طرح أوزان النموذج مفتوحة المصدر بموجب ترخيص MIT، وقد تم رفع أوزان النماذج إلى كلٍّ من Hugging Face وModelScope. وفقًا للتقرير التقني الخاص بـ DeepSeek V4، حقق V4-Pro-Max (أقصى وضع قوة استدلال) 3206 نقطة في معيار Codeforces، متفوقًا على GPT-5.4.

مواصفات معماريتي MoE لنموذجين

وفقًا للتقرير التقني الخاص بـ DeepSeek V4، تتضمن سلسلة V4 نموذجين من نماذج الخبراء الهجين (MoE):

V4-Pro: إجمالي المعلمات 1.6T، تنشيط كل توكن 49B، يدعم سياقًا حتى 1M توكن

V4-Flash: إجمالي المعلمات 284B، تنشيط كل توكن 13B، يدعم كذلك سياقًا حتى 1M توكن

وفقًا للتقرير التقني، فإن استدلال FLOPs لكل توكن في سياق 1M لـ V4-Pro تبلغ 27% فقط من V3.2، كما انخفض مخبأ KV إلى 10% من V3.2. ويعود ذلك بشكل أساسي إلى ترقية معمارية آلية الانتباه الهجينة (CSA انتباه متناثر مضغوط + HCA انتباه مضغوط مكثّف). يتجاوز حجم بيانات ما قبل التدريب 32T توكن؛ وقد تم تحديث المُحسِّن التدريبي إلى Muon.

منهجية ما بعد التدريب: التقطير عبر الاستراتيجية المباشرة يحل محل التعلم المعزز الهجين

وفقًا للتقرير التقني الخاص بـ DeepSeek V4، تتمثل التحديثات الأساسية في ما بعد تدريب V4 في استبدال مرحلة التعلم المعزز الهجين (mixed RL) في V3.2 بالكامل بتقطير الاستراتيجية المباشرة (On-Policy Distillation، OPD). يتم تقسيم العملية الجديدة إلى خطوتين: أولاً، يتم تدريب خبراء مجال منفصلين (SFT + GRPO تعزيز تعلّمي) على مجالات مثل الرياضيات والبرمجة وAgent واتباع التعليمات؛ وبعد ذلك، يتم تقطير قدرات أكثر من عشرة خبراء إلى نموذج موحّد باستخدام مُقطِّر OPD متعدد المعلمين، مع محاذاة logit لتجنب تعارض القدرات الشائع في الطرق التقليدية.

كما يقدّم التقرير نموذج مكافأة توليدي (Generative Reward Model، GRM)، وذلك للمهام التي يصعب التحقق منها باستخدام القواعد؛ إذ يتم تدريب النموذج باستخدام كمية صغيرة ومتنوعة من بيانات التعليمات/الوسوم البشرية، ليقوم النموذج في الوقت نفسه بدور التوليد والتقييم.

نتائج الاختبار المعياري: التشفير يتقدم، لكن الاستدلال المعرفي لا يزال بفارق

وفقًا للتقرير التقني الخاص بـ DeepSeek V4، تأتي نتائج المقارنة بين V4-Pro-Max وOpus 4.6 Max وGPT-5.4 xHigh وGemini 3.1 Pro High (مع استبعاد GPT-5.5 وOpus 4.7 اللذين صدرَا مؤخرًا):

Codeforces: 3206 (GPT-5.4: 3168 / Gemini 3.1 Pro: 3052) → أعلى نتيجة في كامل المنافسة

LiveCodeBench: 93.5 → أعلى نتيجة في كامل المنافسة

SWE Verified: 80.6، متأخر عن Opus 4.6 البالغ 80.8 بفارق 0.2 نقطة مئوية

GPQA Diamond: 90.1، متأخر عن Gemini 3.1 Pro البالغ 94.3

SimpleQA-Verified: 57.9، متأخر عن Gemini 3.1 Pro البالغ 75.6

HLE: 37.7، متأخر عن Gemini 3.1 Pro البالغ 44.4

كما يشير التقرير التقني إلى أن المقارنات المذكورة أعلاه لا تتضمن GPT-5.5 وOpus 4.7 المنشورين مؤخرًا، وأن الفجوة بين V4 والنموذج المغلق من الجيل الأحدث بحاجة إلى تحقق من خلال تقييم طرف ثالث.

الأسئلة الشائعة

ما هي شروط ترخيص Open Source لنسخة معاينة DeepSeek V4، وأين يمكن الحصول عليها؟

وفقًا للإعلان الرسمي لـ DeepSeek في 24 أبريل، تُطرح سلسلة V4 كمصدر مفتوح بموجب ترخيص MIT، وتم رفع أوزان النموذج إلى Hugging Face وModelScope، وتُستخدم للأغراض التجارية والأكاديمية.

ما الاختلاف بين حجم معلمات DeepSeek V4-Pro وV4-Flash؟

وفقًا للتقرير التقني الخاص بـ DeepSeek V4، فإن إجمالي معلمات V4-Pro يبلغ 1.6T، وتنشيط كل توكن 49B؛ بينما إجمالي معلمات V4-Flash يبلغ 284B، وتنشيط كل توكن 13B. ويُشغّل كلا النموذجين سياقًا يصل إلى 1M توكن.

ما نتائج المقارنة المعيارية لـ DeepSeek V4-Pro-Max مع GPT-5.4 وGemini 3.1 Pro؟

وفقًا للتقرير التقني الخاص بـ DeepSeek V4، يتفوق V4-Pro-Max في معيار Codeforces (3206 نقطة) وLiveCodeBench (93.5) على GPT-5.4 وGemini 3.1 Pro، لكنه لا يزال متأخرًا عن Gemini 3.1 Pro في المعايير عالية الكثافة المعرفية (GPQA Diamond وSimpleQA-Verified وHLE)؛ كما أن مجموعة المقارنة لا تشمل GPT-5.5 وOpus 4.7.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات