DeepSeek V4がPutnam-2025で満点を達成、形式的な数学推論でAxiomと首位

Gate Newsメッセージ、4月24日 — DeepSeek V4は、形式的な数学的推論の評価結果を公開し、Putnam-2025で満点の120/120を達成し、首位でAxiomと並びました。

LeanExploreと制約付きサンプリングを用いた実用レジームでは、V4-Flash-MaxはPutnam-200 Pass@8ベンチマークで81.00を獲得し、Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50)、およびSeed-1.5-Prover (26.50)を大きく上回りました。フロンティア・レジームの結果では、V4はSeed-1.5-Prover (110/120)とAristotle (100/120)より先行していました。

V4は、ハイブリッドな形式的-非形式的推論アプローチを採用しています。非形式的な推論が候補となる自然言語の解法を生成し、自己検証が結果をフィルタリングし、形式的エージェントがLeanで厳密な証明を完成させます。フロンティアの結果は大規模な計算スケーリングを利用しましたが、実用レジームのスコアは標準的な導入能力をよりよく反映しています。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし