بوابة الأخبار: رسالة بتاريخ 22 أبريل — كشف طالب الدكتوراه في برينستون ييفان تشانغ عن المواصفات التقنية الكاملة لـ DeepSeek V4 على X، وذلك بعد عرضٍ مسبق في 19 أبريل. يتضمن V4 1.6 تريليون إجمالي المعلمات ونُسخة خفيفة الوزن، V4-Lite، بإجمالي 285 مليار معلمة.

يعتمد النموذج آلية انتباه DSA2، والتي تجمع بين انتباه DeepSeek Sparse (DeepSeek Sparse Attention) السابق من V3.2 وNSA (Native Sparse Attention) مع تضمينات رؤوس ذات بُعد 512، مقترنة بـ Sparse Multi-Query Attention (MQA) وSliding Window Attention (SWA). طبقة MoE (Mixture of Experts) تحتوي على 384 خبيرًا مع تفعيل 6 لكل تمريرة أمامية، باستخدام Fused MoE Mega-Kernel. تستخدم الاتصالات المتبقية بنية Hyper-Connections.

تفاصيل التدريب التي تم الكشف عنها لأول مرة تتضمن استخدام مُحسّن Muon (applying Newton-Schulz orthogonalization to momentum updates) لتحديثات الزخم، ونافذة سياق قبل التدريب بحجم 32K رمزًا، وGRPO (Group Relative Policy Optimization) مع تصحيح تباعد KL أثناء التعلم التعزيزي. تمتد نافذة السياق النهائية إلى مليون رمز. النموذج نصي فقط.

لا يعمل يانغ لصالح DeepSeek، ولم تعلّق الشركة رسميًا على المعلومات التي تم الكشف عنها.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

04-22 11:23

تنسنت وعلي بابا تفاوضان على الاستثمار في DeepSeek، القيمة تتجاوز $200 مليار

04-22 10:01

فيتاليك: حلول التشفير اللاحق للكم ناضجة؛ إيثريوم يهدف إلى مقاومة تهديدات كلّ من الكم والذكاء الاصطناعي

04-22 08:01

清华教授戴继锋推出 Naive.ai，融资约 $300M ，估值 $800M

04-22 04:09

يظهر GPT-5.5 في مُحدد OpenAI Codex لكنه يُرجع خطأ 400، وهو غير متاح حاليًا

04-22 01:11

Moonshot AI تطرح نموذج Kimi K2.6 مفتوح المصدر مع سير عمل لوكلاء متقدم

تحليل متعمق