Gate News 訊息,4 月 22 日——普林斯頓博士生 Yifan Zhang 在 X 上披露 DeepSeek V4 的完整技術規格,該內容在 4 月 19 日的預告之後發布。V4 具備 1.6 兆(1.6 trillion)總參數,並有輕量版本 V4-Lite,其參數為 2850 億(285 billion)。
該模型採用 DSA2 注意力機制,結合 DeepSeek 先前在 V3.2 的 DSA (DeepSeek Sparse Attention) 與 NSA (Native Sparse Attention)(含 512 維的頭部嵌入),並搭配稀疏多查詢注意力 (MQA) 與滑動視窗注意力 (SWA)。MoE (Mixture of Experts) 層包含 384 位專家,每次前向傳播啟用 6 位,並使用 Fused MoE Mega-Kernel。殘差連接採用 Hyper-Connections 架構。
首次揭露的訓練細節包括使用 Muon 優化器 (applying Newton-Schulz orthogonalization to momentum updates) 來處理動量更新、32K token 的預訓練上下文視窗,以及 GRPO (Group Relative Policy Optimization),並在強化學習期間使用 KL 散度校正。最終上下文視窗擴展至 100 萬(1 million)tokens。該模型為僅文字模型。
Zhang 並未受僱於 DeepSeek,公司也尚未對所披露資訊作出正式評論。