DeepSeek V4 получает идеальный результат на Putnam-2025, делит первое место с Axiom в формальном математическом рассуждении

Gate News сообщение, 24 апреля — DeepSeek V4 опубликовала результаты оценок формального математического рассуждения, набрав идеальные 120/120 на Putnam-2025, разделив первое место с Axiom.

В практическом режиме с использованием LeanExplore и ограниченной выборки V4-Flash-Max набрала 81.00 по бенчмарку Putnam-200 Pass@8, значительно обойдя Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) и Seed-1.5-Prover (26.50). Результаты в режиме frontier показали, что V4 опережает Seed-1.5-Prover (110/120) и Aristotle (100/120).

V4 использует гибридный подход к формально-неформальным рассуждениям: неформальные рассуждения генерируют кандидаты решений на естественном языке, самопроверка отфильтровывает результаты, а формальный агент завершает строгие доказательства в Lean. Результаты в режиме frontier использовали масштабирование вычислений в больших объемах, тогда как оценки в практическом режиме лучше отражают возможности стандартного развертывания.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев