DeepSeek发布V4开源模型系列,参数达1.6T并采用MIT许可证

Gate News消息,4月24日——DeepSeek已在MIT许可证下发布V4系列开源模型,权重现已在Hugging Face和ModelScope提供。该系列包含两个混合专家 (MoE) 模型:V4-Pro 总参数达1.6万亿,且每token激活49亿,以及V4-Flash 总参数达2840亿,且每token激活130亿。两者都支持100万token的上下文窗口。

该架构带来三项关键升级:一种混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro在1M上下文下的推理FLOPs仅为V3.2的27%,用于在推理过程中存储历史信息的KV缓存 (VRAM) 也仅为V3.2的10%;用流形约束的超连接 (mHC) 替代传统的残差连接,以增强跨层信号传播的稳定性;并采用Muon优化器以实现更快的训练收敛。预训练使用了超过32万亿tokens的数据。

后训练采用两阶段方案:首先通过监督微调 (SFT) 和GRPO强化学习训练领域特定专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称在顶级代码基准上拥有最强的开源模型实力,并且在推理和智能体任务上与闭源前沿模型之间的差距显著缩小。V4-Flash-Max在足够的计算预算下实现Pro级推理性能,但在纯知识和复杂智能体任务上受限于参数规模。权重以混合FP4+FP8精度存储。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Web3 AI 基础设施 AIW3 完成 $2M 种子轮融资,Buffalo Capital 牵头

Gate News 消息,4月24日——Web3 AI 基础设施平台 AIW3 宣布完成一轮 $2 百万美元种子轮融资。本轮融资由 Buffalo Capital 牵头,GalaXin Capital 和 Three-stones Ventures 参与作为共同投资方。 AIW3 正在向 Agent-as-a-Service

GateNews6 分钟前

Cohere 收购德国 AI 公司 Aleph Alpha,斩获 $600M 投资用于欧洲扩张

Gate 新闻消息,4月24日——加拿大 AI 公司 Cohere 宣布计划收购德国 AI 公司 Aleph Alpha,以加强其在欧洲的布局。Aleph Alpha 的支持方 Schwarz Group 计划在 Cohere 的 E 轮融资中投资 $600 百万。 预计该融资轮将于 202

GateNews48 分钟前

小鹏、Redmi 牵头:北京车展上的车载 AI 推进

快讯,4月24日——随着中国加速推进 AI Plus 战略,并寻求在国外半导体方面获得更大独立性,中国车企在4月24日的北京车展上展示了先进的车载 AI 系统。 小鹏展示了语音控制泊车功能,允许驾驶员“通过

GateNews1小时前

前字节跳动 Seed 工程师:字节跳动 AI 迭代需六个月,而谷歌为三个月

Gate News 消息,4 月 24 日——字节跳动 Seed 团队的前工程师、现任北京大学助理教授张驰在播客《Into Asia》中透露,字节跳动完成一次完整的大型语言模型训练 (预训练循环大约需要六个月

GateNews1小时前

OpenAI 工程师 Clive Chan 挑战 V4 硬件建议,称其相较 V3 存在错误与模糊之处

Gate News 消息,4 月 24 日——OpenAI 工程师 Clive Chan 就 V4 技术报告中的硬件建议章节提出了详细异议,称其“出人意料地平庸且容易出错”,与备受赞誉的 V3 版本相比尤为如此。V3 的硬件指导,其中包括问答(Q&A)环节

GateNews2小时前

Naver 推出 AI Tab 测试版,Google Gemini 进入韩国搜索市场

Gate News 消息,4 月 24 日——Naver 宣布,其新的对话式搜索功能 AI Tab 将启动封闭测试版,此前谷歌已在韩国于 Chrome 中推出 Gemini。 AI Tab 将与 Naver 现有的搜索标签并列出现,为用户提供一个专门用于对话式

GateNews2小时前
评论
0/400
暂无评论