Новини Gate, 24 квітня — DeepSeek V4 опублікував результати оцінювання формального математичного міркування, досягнувши ідеального результату 120/120 на Putnam-2025, поділивши перше місце з Axiom.

У практичному режимі із використанням LeanExplore та обмеженого семплінгу V4-Flash-Max набрав 81.00 на бенчмарку Putnam-200 Pass@8, суттєво випередивши Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) та Seed-1.5-Prover (26.50). Результати в режимі frontier показали, що V4 випереджає Seed-1.5-Prover (110/120) та Aristotle (100/120).

V4 використовує гібридний підхід формальних-неформальних міркувань: неформальні міркування генерують кандидатні розв’язання природною мовою, самоперевірка відсіює результати, а формальний агент завершує строгі доведення в Lean. Результати frontier спиралися на масштабне обчислювальне нарощування, тоді як бали практичного режиму краще відображають стандартні можливості розгортання.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

04-24 04:29

V4-Pro досягає 67% частки успішних проходжень коду в внутрішньому dogfooding-тесті, наближаючись до продуктивності Opus 4.5

04-24 03:21

Дані для тренування DeepSeek V4 збільшилися до 33T: нестабільність спровокувала затримку релізу

04-24 03:04

DeepSeek випускає серію відкритих моделей V4 із 1,6T параметрів і ліцензією MIT

04-24 02:01

Акції, пов’язані з ШІ, тепер становлять 45% ринкової капіталізації S&P 500, ринки кредитів відчувають тиск

04-24 01:46

OpenAI запускає GPT-5.5, створену для агентних завдань і складних робочих процесів

Поглиблений аналіз