Gate News 消息,4 月 24 日——DeepSeek V4-Pro 和 DeepSeek V4-Flash 于 4 月 24 日正式发布,并开源发布;上下文处理长度从 128K 显著扩展至 1M,容量提升接近 10 倍。华为计算宣布,其 Ascend 超级节点产品通过芯片与模型技术的紧密协作,已全面支持 DeepSeek V4 系列模型。
华为 Ascend 950 通过融合内核与多流并行技术,实现高吞吐、低延迟的 DeepSeek V4 模型推理部署,以降低 Attention 计算与内存访问开销。对于输入为 8K 的 DeepSeek V4-Pro,Ascend 950 实现约 20ms TPOT,单卡 Decode 吞吐量为 4,700 TPS;对于输入在 8K 以下的 DeepSeek V4-Flash,它的 TPOT 约为 10ms,吞吐量为 1,600 TPS。Ascend A3 超级节点系列也实现完全兼容,并提供训练参考实现以便快速微调。基于搭载大 EP 模式的 64 卡 Ascend A3 超级节点,DeepSeek V4-Flash 在 8K/1K 输入输出场景下,使用 vLLM 推理引擎实现单卡 Decode 吞吐量超过 2,000 TPS。华为全线 Ascend A2、A3 和 950 产品均支持 DeepSeek V4-Flash 和 V4-Pro。
华为云宣布与 DeepSeek V4 的率先兼容,通过其 MaaS 平台为开发者提供一键式 API 令牌服务。华为云优化了系统层、算子层和集群层能力,以确保模型快速适配与高性能部署。金山 WPS 和 360 等企业已通过华为云集成了 DeepSeek 的新模型。
燧原(Cambricon)也宣布基于 vLLM 推理框架实现与 DeepSeek V4-Flash 和 V4-Pro 的 Day 0 兼容,并将适配代码开源至 GitHub 社区。燧原此前在去年 DeepSeek V3.2 发布时就已实现率先适配;其已对 DeepSeek 系列模型开展了深度的软件-硬件协同性能优化。