Новини Gate, 24 квітня — DeepSeek V4 опублікував результати оцінювання формального математичного міркування, досягнувши ідеального результату 120/120 на Putnam-2025, поділивши перше місце з Axiom.
У практичному режимі із використанням LeanExplore та обмеженого семплінгу V4-Flash-Max набрав 81.00 на бенчмарку Putnam-200 Pass@8, суттєво випередивши Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) та Seed-1.5-Prover (26.50). Результати в режимі frontier показали, що V4 випереджає Seed-1.5-Prover (110/120) та Aristotle (100/120).
V4 використовує гібридний підхід формальних-неформальних міркувань: неформальні міркування генерують кандидатні розв’язання природною мовою, самоперевірка відсіює результати, а формальний агент завершує строгі доведення в Lean. Результати frontier спиралися на масштабне обчислювальне нарощування, тоді як бали практичного режиму краще відображають стандартні можливості розгортання.