Gate Newsメッセージ、4月24日 — DeepSeek V4は、形式的な数学的推論の評価結果を公開し、Putnam-2025で満点の120/120を達成し、首位でAxiomと並びました。
LeanExploreと制約付きサンプリングを用いた実用レジームでは、V4-Flash-MaxはPutnam-200 Pass@8ベンチマークで81.00を獲得し、Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50)、およびSeed-1.5-Prover (26.50)を大きく上回りました。フロンティア・レジームの結果では、V4はSeed-1.5-Prover (110/120)とAristotle (100/120)より先行していました。
V4は、ハイブリッドな形式的-非形式的推論アプローチを採用しています。非形式的な推論が候補となる自然言語の解法を生成し、自己検証が結果をフィルタリングし、形式的エージェントがLeanで厳密な証明を完成させます。フロンティアの結果は大規模な計算スケーリングを利用しましたが、実用レジームのスコアは標準的な導入能力をよりよく反映しています。