DeepSeek V4 在 Putnam-2025 取得滿分,並列與 Axiom 第一名(正式數學推理)

Gate 新聞訊息,4月24日——DeepSeek V4 已發布來自正式數學推理評估的結果,在 Putnam-2025 中取得滿分 120/120,與 Axiom 並列第一名。

在使用 LeanExplore 與受約束取樣的實務模式下,V4-Flash-Max 在 Putnam-200 Pass@8 基準中得分 81.00,顯著優於 Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50) 以及 Seed-1.5-Prover (26.50)。前沿模式的結果顯示,V4 領先於 Seed-1.5-Prover (110/120) 與 Aristotle (100/120)。

V4 採用混合型「正式—非正式推理」方法:非正式推理產生候選自然語言解答,自我驗證會篩選結果,而正式代理在 Lean 中完成嚴格證明。前沿模式結果使用了大規模計算規模化,而實務模式分數更能反映標準部署能力。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆