Yifan Zhang 揭露 DeepSeek V4 完整技術規格:1.6T 參數、384 位專家(6 次啟用)

Gate News 訊息,4 月 22 日——普林斯頓博士生 Yifan Zhang 在 X 上披露 DeepSeek V4 的完整技術規格,該內容在 4 月 19 日的預告之後發布。V4 具備 1.6 兆(1.6 trillion)總參數,並有輕量版本 V4-Lite,其參數為 2850 億(285 billion)。

該模型採用 DSA2 注意力機制,結合 DeepSeek 先前在 V3.2 的 DSA (DeepSeek Sparse Attention) 與 NSA (Native Sparse Attention)(含 512 維的頭部嵌入),並搭配稀疏多查詢注意力 (MQA) 與滑動視窗注意力 (SWA)。MoE (Mixture of Experts) 層包含 384 位專家,每次前向傳播啟用 6 位,並使用 Fused MoE Mega-Kernel。殘差連接採用 Hyper-Connections 架構。

首次揭露的訓練細節包括使用 Muon 優化器 (applying Newton-Schulz orthogonalization to momentum updates) 來處理動量更新、32K token 的預訓練上下文視窗,以及 GRPO (Group Relative Policy Optimization),並在強化學習期間使用 KL 散度校正。最終上下文視窗擴展至 100 萬(1 million)tokens。該模型為僅文字模型。

Zhang 並未受僱於 DeepSeek,公司也尚未對所披露資訊作出正式評論。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆