Gate 新闻消息,4月24日——DeepSeek V4-Pro 和 DeepSeek V4-Flash 已于 4月24日正式发布并开源;上下文处理长度从 128K 显著扩展至 1M,容量提升接近 10 倍。华为计算宣布其 Ascend 超级节点产品通过芯片与模型技术的紧密协同,已全面支持 DeepSeek V4 系列模型。
华为 Ascend 950 通过融合算子核与多流并行技术,实现高吞吐、低延迟的 DeepSeek V4 模型推理部署,从而降低 Attention 计算与内存访问的开销。对于输入 8K 的 DeepSeek V4-Pro,Ascend 950 实现约 20ms TPOT,单卡 Decode 吞吐为 4,700 TPS;对于输入 <8K 的 DeepSeek V4-Flash,达到约 10ms TPOT,吞吐为 1,600 TPS。Ascend A3 超级节点系列同样实现完全兼容,并提供训练参考实现以便快速微调。基于具备大 EP 模式的 Ascend A3 64 卡超级节点,DeepSeek V4-Flash 在使用 vLLM 推理引擎的 8K/1K 输入输出场景中实现单卡 Decode 吞吐超过 2,000 TPS。华为全系 Ascend A2、A3 和 950 产品线均支持 DeepSeek V4-Flash 与 V4-Pro。
华为云宣布与 DeepSeek V4 率先实现兼容,通过其 MaaS 平台为开发者提供一键式 API 令牌服务。华为云针对系统层、算子层与集群层能力进行了优化,确保模型快速适配与高性能部署。包括金山 WPS 和 360 在内的企业已通过华为云集成了 DeepSeek 的新模型。
昆仑芯片同样宣布基于 vLLM 推理框架,与 DeepSeek V4-Flash 和 V4-Pro 实现 Day 0 兼容,并将适配代码开源给 GitHub 社区。昆仑芯片此前在去年 DeepSeek V3.2 发布时已率先完成适配:通过对 DeepSeek 系列模型开展深度的软件-硬件协同性能优化。