DeepSeek V4 以 1M 上下文窗口发布;华为 Ascend 与昆仑芯片实现完全兼容

Gate 新闻消息,4月24日——DeepSeek V4-Pro 和 DeepSeek V4-Flash 已于 4月24日正式发布并开源;上下文处理长度从 128K 显著扩展至 1M,容量提升接近 10 倍。华为计算宣布其 Ascend 超级节点产品通过芯片与模型技术的紧密协同,已全面支持 DeepSeek V4 系列模型。

华为 Ascend 950 通过融合算子核与多流并行技术,实现高吞吐、低延迟的 DeepSeek V4 模型推理部署,从而降低 Attention 计算与内存访问的开销。对于输入 8K 的 DeepSeek V4-Pro,Ascend 950 实现约 20ms TPOT,单卡 Decode 吞吐为 4,700 TPS;对于输入 <8K 的 DeepSeek V4-Flash,达到约 10ms TPOT,吞吐为 1,600 TPS。Ascend A3 超级节点系列同样实现完全兼容,并提供训练参考实现以便快速微调。基于具备大 EP 模式的 Ascend A3 64 卡超级节点,DeepSeek V4-Flash 在使用 vLLM 推理引擎的 8K/1K 输入输出场景中实现单卡 Decode 吞吐超过 2,000 TPS。华为全系 Ascend A2、A3 和 950 产品线均支持 DeepSeek V4-Flash 与 V4-Pro。

华为云宣布与 DeepSeek V4 率先实现兼容,通过其 MaaS 平台为开发者提供一键式 API 令牌服务。华为云针对系统层、算子层与集群层能力进行了优化,确保模型快速适配与高性能部署。包括金山 WPS 和 360 在内的企业已通过华为云集成了 DeepSeek 的新模型。

昆仑芯片同样宣布基于 vLLM 推理框架,与 DeepSeek V4-Flash 和 V4-Pro 实现 Day 0 兼容,并将适配代码开源给 GitHub 社区。昆仑芯片此前在去年 DeepSeek V3.2 发布时已率先完成适配:通过对 DeepSeek 系列模型开展深度的软件-硬件协同性能优化。

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios