Повідомлення Gate News, 22 квітня — аспірант Принстонського університету Юйфань Чжан розкрив повні технічні характеристики DeepSeek V4 у X після попереднього анонсу 19 квітня. V4 має загалом 1,6 трильйона параметрів і полегшений варіант V4-Lite, який містить 285 мільярдів параметрів.

Модель використовує механізм уваги DSA2, який поєднує попередню DSA (DeepSeek Sparse Attention) від V3.2 та NSA (Native Sparse Attention) із вкладеннями для голови розмірністю 512, у парі з Sparse Multi-Query Attention (MQA) та Sliding Window Attention (SWA). Рівень MoE (Mixture of Experts) містить 384 експерти, з 6 активованими під час кожного прямого проходу, із використанням Fused MoE Mega-Kernel. Від’ємні зв’язки застосовують архітектуру Hyper-Connections.

Деталі тренування, розкриті вперше, включають використання оптимізатора Muon (applying Newton-Schulz orthogonalization to momentum updates), контекстного вікна для попереднього навчання на 32K токенів, а також GRPO (Group Relative Policy Optimization) з корекцією за розбіжністю KL під час підкріплювального навчання. Кінцеве контекстне вікно розширюється до 1 мільйона токенів. Модель є лише текстовою.

Чжан не працює в DeepSeek, і компанія офіційно не коментувала розкриту інформацію.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

04-22 11:23

Tencent і Alibaba обговорюють інвестиції в DeepSeek, оцінка перевищує $200 мільярд

04-22 10:01

Віталік: Рішення постквантової криптографії вже зрілі; Ethereum прагне протистояти і квантовим, і загрозам з боку ШІ

04-22 08:01

Професор Цінхуа Дай Цзифен запускає Naive.ai, залучає ~$300M за оцінкою $800M

04-22 04:09

GPT-5.5 з’являється в селекторі OpenAI Codex, але повертає помилку 400; наразі недоступно

04-22 01:11

Moonshot AI випускає відкриту модель Kimi K2.6 із розширеними агентними сценаріями

Поглиблений аналіз