華為的 Ascend 910C 完成對 DeepSeek 的 1.6 兆參數模型的後訓練,使用 1,000 多台 GPU

根據 Beating,來自深圳何道學院、哈爾濱工業大學(深圳)、深圳大數據研究院、華為與 Deepcity AI 的聯合團隊已宣布,已在國內 AI 基礎設施上成功完成 DeepSeek-V4-Pro 的全參數後訓練,該模型為 1.6 兆參數模型。這也是首次由第三方組織在中國硬體上為如此規模的模型完成全參數後訓練。

團隊利用超過 1,000 顆華為 Ascend 910C 晶片的運算叢集,透過最佳化的分散式負載平衡,克服通訊瓶頸。在為期 1,500 步的訓練流程中,系統全程不中斷運行,達成模型 FLOPs 利用率(MFU)超過 30%,並將關鍵運算子效率提升 14%,符合工業級性能標準。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆