DeepSeek V4 obtient un score parfait sur Putnam-2025, à égalité avec Axiom en raisonnement mathématique formel

Message de Gate News, 24 avril — DeepSeek V4 a publié des résultats issus d’évaluations de raisonnement mathématique formel, obtenant un score parfait de 120/120 sur Putnam-2025, à égalité avec Axiom pour la première place.

Dans le régime pratique utilisant LeanExplore et un échantillonnage contraint, V4-Flash-Max a obtenu 81.00 sur le benchmark Putnam-200 Pass@8, surpassant nettement Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) et Seed-1.5-Prover (26.50). Les résultats du régime frontier ont montré V4 en avance sur Seed-1.5-Prover (110/120) et Aristotle (100/120).

V4 emploie une approche hybride de raisonnement formel-informel : le raisonnement informel génère des solutions candidates en langage naturel, l’auto-vérification filtre les résultats, et un agent formel termine des preuves rigoureuses dans Lean. Les résultats du régime frontier ont utilisé une montée en charge computationnelle à grande échelle, tandis que les scores du régime pratique reflètent mieux les capacités de déploiement standard.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire