DeepSeek V4 在 Putnam-2025 上取得满分成绩,与 Axiom 在形式化数学推理中并列第一

Gate News 消息,4 月 24 日——DeepSeek V4 已发布来自形式化数学推理评测的结果,在 Putnam-2025 上取得满分 120/120,与 Axiom 并列第一。

在使用 LeanExplore 与受约束采样的实践模式中,V4-Flash-Max 在 Putnam-200 Pass@8 基准测试中得分 81.00,显著超过 Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50) 和 Seed-1.5-Prover (26.50)。前沿模式结果显示,V4 领先于 Seed-1.5-Prover (110/120) 和 Aristotle (100/120)。

V4 采用混合的形式化-非形式化推理方法:非形式化推理生成候选的自然语言解答,自我验证对结果进行筛选,而形式化智能体在 Lean 中完成严格证明。前沿模式结果使用了大规模计算扩展,而实践模式得分更能反映标准部署能力。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات