DeepSeek V4 在 Putnam-2025 上取得满分成绩，与 Axiom 在形式化数学推理中并列第一

2026-04-24 04:49:30

Gate News 消息，4 月 24 日——DeepSeek V4 已发布来自形式化数学推理评测的结果，在 Putnam-2025 上取得满分 120/120，与 Axiom 并列第一。

在使用 LeanExplore 与受约束采样的实践模式中，V4-Flash-Max 在 Putnam-200 Pass@8 基准测试中得分 81.00，显著超过 Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50) 和 Seed-1.5-Prover (26.50)。前沿模式结果显示，V4 领先于 Seed-1.5-Prover (110/120) 和 Aristotle (100/120)。

V4 采用混合的形式化-非形式化推理方法：非形式化推理生成候选的自然语言解答，自我验证对结果进行筛选，而形式化智能体在 Lean 中完成严格证明。前沿模式结果使用了大规模计算扩展，而实践模式得分更能反映标准部署能力。

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

04-24 04:29

V4-Pro在内部自用（dogfooding）测试中实现67%的代码通过率，逼近Opus 4.5性能

04-24 03:21

DeepSeek V4训练数据增至33T：引发不稳定性并导致发布延迟

04-24 03:04

DeepSeek 发布 V4 开源模型系列：1.6T 参数与 MIT 许可

04-24 02:01

الأسهم المرتبطة بالذكاء الاصطناعي تمثل الآن 45% من القيمة السوقية لـ S&P 500، وأسواق الائتمان تواجه ضغطًا

04-24 01:46

أطلقت OpenAI GPT-5.5، المصممة لمهام الوكلاء وسير العمل المعقدة

تحليل متعمق