DeepSeek V4 Досягає Ідеального Результату на Putnam-2025, Порівнюється з Axiom у Формальному Математичному Міркуванні

Новини Gate, 24 квітня — DeepSeek V4 опублікував результати оцінювання формального математичного міркування, досягнувши ідеального результату 120/120 на Putnam-2025, поділивши перше місце з Axiom.

У практичному режимі із використанням LeanExplore та обмеженого семплінгу V4-Flash-Max набрав 81.00 на бенчмарку Putnam-200 Pass@8, суттєво випередивши Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) та Seed-1.5-Prover (26.50). Результати в режимі frontier показали, що V4 випереджає Seed-1.5-Prover (110/120) та Aristotle (100/120).

V4 використовує гібридний підхід формальних-неформальних міркувань: неформальні міркування генерують кандидатні розв’язання природною мовою, самоперевірка відсіює результати, а формальний агент завершує строгі доведення в Lean. Результати frontier спиралися на масштабне обчислювальне нарощування, тоді як бали практичного режиму краще відображають стандартні можливості розгортання.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів