DeepSeek 于 2026 年 4 月 24 日发布了 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的预览版本。两者都是开放权重模型,拥有一百万 token 的上下文窗口,且定价显著低于可比的西方替代方案。根据该公司的官方规格说明,V4-Pro 模型每百万输入 token 的价格为 $1.74,每百万输出 token 的价格为 $3.48——大约是 Claude Opus 4.7 价格的 1/20,并且比 GPT-5.5 Pro 低 98%。
DeepSeek-V4-Pro 具备 1.6 万亿个总参数,是截至目前 LLM 市场中最大的开源模型。然而,仅有 490 亿参数会在每次推理时激活,采用了 DeepSeek 称之为 Mixture-of-Experts(混合专家)的方案,自 V3 起经过精炼。该设计使得完整模型处于休眠状态,只有与任意给定请求相关的切片才会激活,从而降低计算成本,同时维持知识容量。
DeepSeek-V4-Flash 规模更小,具有 2840 亿总参数和 130 亿激活参数。根据 DeepSeek 的基准测试,它在提供更大的“思考预算”时,“能达到与 Pro 版本相当的推理性能”。
两个模型都支持一百万 token 的上下文作为标准功能——大约 750,000 词,或基本上包含整个《指环王》三部曲的文本,外加一些额外内容。
DeepSeek 通过发明两种新的注意力类型来解决长上下文处理固有的计算扩展问题,具体如公司技术论文所述,该论文可在 GitHub 上获取。
标准 AI 注意力机制面临一个残酷的扩展问题:每当上下文长度翻倍,计算成本大约会增加四倍。DeepSeek 的解决方案包含两种相互补充的做法:
压缩稀疏注意力(Compressed Sparse Attention) 分两步完成。首先,它会压缩 token 的分组——例如将每 4 个 token 压缩成一条记录。然后,它不再关注所有压缩后的条目,而是使用名为 “Lightning Indexer” 的机制来为任意查询只选择最相关的结果。这样就把模型的注意力范围从一百万 token 降到一个更小的、重要片段集合。
重度压缩注意力(Heavily Compressed Attention) 采取更激进的方法:不进行稀疏选择,而是把每 128 个 token 折叠成一条记录。尽管这会损失细粒度细节,但它提供了一个极其廉价的全局视角。两种注意力类型在交替的层中运行,使模型能够同时兼顾细节与概览。
结果是:V4-Pro 使用了其前代模型 (V3.2) 所需计算的 27%。KV cache(用于跟踪上下文的内存)降至 V3.2 的 10%。V4-Flash 进一步提升效率:相较于 V3.2 的计算为 10%,内存为 7%。
DeepSeek 发布了针对 GPT-5.4 和 Gemini-3.1-Pro 的全面基准对比,包括 V4-Pro 落后于竞品的领域。在推理任务上,根据 DeepSeek 的技术报告,V4-Pro 的推理能力相较 GPT-5.4 和 Gemini-3.1-Pro 大约落后三到六个月。
V4-Pro 的优势在于:
V4-Pro 的不足在于:
在长上下文任务上,V4-Pro 领先于开源模型,并且在 CorpusQA 上击败 Gemini-3.1-Pro (以一百万 tokens 模拟真实文档分析),但在 MRCR 上输给 Claude Opus 4.6;MRCR 用于衡量在长文本深处检索特定信息的能力。
V4-Pro 可以在 Claude Code、OpenCode 以及其他 AI 编码工具中运行。根据 DeepSeek 对使用 V4-Pro 作为主要编码代理的 85 位开发者的内部调查,52% 的人表示它已准备好成为他们的默认模型,39% 的人倾向于“是”,少于 9% 的人表示“否”。DeepSeek 的内部测试表明,V4-Pro 在 agentic 编码任务上优于 Claude Sonnet,并接近 Claude Opus 4.5。
Artificial Analysis 在 GDPval-AA 上将 V4-Pro 排在所有开源权重模型的第一位。GDPval-AA 是一个基准,用于测试在经济价值上有用的知识工作,覆盖金融、法律与研究任务。V4-Pro-Max 得分为 1,554 Elo,领先于 GLM-5.1 (1,535) 和 MiniMax 的 M2.7 (1,514)。同一基准下,Claude Opus 4.6 得分为 1,619。
V4 引入了“交错式思考(interleaved thinking)”,能够在工具调用之间保留完整的思维链。在之前的模型中,当智能体进行了多次工具调用——例如先搜索网页、再运行代码、然后再搜索——模型的推理上下文会在各轮之间被清空。V4 在各步骤之间保持推理连续性,避免复杂自动化工作流中的上下文丢失。
V4 的发布正值 AI 领域出现重大动态。Anthropic 于 2026 年 4 月 16 日发布了 Claude Opus 4.7。OpenAI 的 GPT-5.5 于 2026 年 4 月 23 日上线,GPT-5.5 Pro 的定价为 $30 每百万输入 token 的价格为$180 和 (每百万输出 token 的价格为)。在 Terminal Bench 2.0 (82.7% versus 70.0%) 上,GPT-5.5 优于 V4-Pro;该基准测试复杂的命令行代理工作流。
Xiaomi 于 2026 年 4 月 22 日发布了 MiMo V2.5 Pro,提供完整的多模态能力 $1 image, audio, video$3 ,其 (每百万 token 的输入) 和 每百万 token 的输出 定价均有相应设定。腾讯在与 GPT-5.5 同一天发布了 Hy3。
从定价角度看:Cline CEO Saoud Rizwan 指出,如果 Uber 使用 DeepSeek 而不是 Claude,那么它在 2026 年的 AI 预算——据称足够使用四个月——将能够维持七年。
![Pricing comparison and Uber budget analysis]https://img-cdn.gateio.im/social/moments-0ee5a4bf95-cbc5686e31-8b7abd-badf29
V4-Pro 和 V4-Flash 都采用 MIT 许可证,并可在 Hugging Face 上使用。目前这两个模型都是纯文本模型;DeepSeek 表示正在努力开发多模态能力。两个模型都可以在本地硬件上免费运行,或者根据公司的需求进行定制。
DeepSeek 现有的 deepseek-chat 和 deepseek-reasoner 端点已经分别在非思考模式和思考模式下路由到 V4-Flash。旧的 deepseek-chat 和 deepseek-reasoner 端点将于 2026 年 7 月 24 日退役。
DeepSeek 在训练 V4 时部分使用了华为 Ascend 芯片,从而绕开了美国的出口限制。该公司表示,一旦在 2026 年晚些时候启用 950 个新的超级节点,Pro 模型已处于较低价位的价格还将进一步下降。
对于企业而言,定价结构可能会改变成本—收益的计算方式。以每百万输入 token $1.74 的价格在开源基准上领先的模型,使大规模文档处理、法律审查以及代码生成管线都比六个月前要便宜得多。一百万 token 的上下文能力可以让整个代码库或监管申报材料在单次请求中完成处理,而不是分成多次调用的片段。
对于开发者与独立构建者而言,V4-Flash 是主要考虑对象。按每百万 token $0.14 的输入和 $0.28 的输出计算,它比一年前被认为是预算选项的模型更便宜,同时能处理 Pro 版本所能完成的多数任务。