Gate 新聞訊息,4月24日——DeepSeek V4 已發布來自正式數學推理評估的結果,在 Putnam-2025 中取得滿分 120/120,與 Axiom 並列第一名。
在使用 LeanExplore 與受約束取樣的實務模式下,V4-Flash-Max 在 Putnam-200 Pass@8 基準中得分 81.00,顯著優於 Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50) 以及 Seed-1.5-Prover (26.50)。前沿模式的結果顯示,V4 領先於 Seed-1.5-Prover (110/120) 與 Aristotle (100/120)。
V4 採用混合型「正式—非正式推理」方法:非正式推理產生候選自然語言解答,自我驗證會篩選結果,而正式代理在 Lean 中完成嚴格證明。前沿模式結果使用了大規模計算規模化,而實務模式分數更能反映標準部署能力。