Gate News сообщение, 24 апреля — DeepSeek V4 опубликовала результаты оценок формального математического рассуждения, набрав идеальные 120/120 на Putnam-2025, разделив первое место с Axiom.
В практическом режиме с использованием LeanExplore и ограниченной выборки V4-Flash-Max набрала 81.00 по бенчмарку Putnam-200 Pass@8, значительно обойдя Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) и Seed-1.5-Prover (26.50). Результаты в режиме frontier показали, что V4 опережает Seed-1.5-Prover (110/120) и Aristotle (100/120).
V4 использует гибридный подход к формально-неформальным рассуждениям: неформальные рассуждения генерируют кандидаты решений на естественном языке, самопроверка отфильтровывает результаты, а формальный агент завершает строгие доказательства в Lean. Результаты в режиме frontier использовали масштабирование вычислений в больших объемах, тогда как оценки в практическом режиме лучше отражают возможности стандартного развертывания.