Mensaje de Gate News, 24 de abril — DeepSeek V4 ha publicado resultados de evaluaciones de razonamiento matemático formal, logrando una puntuación perfecta de 120/120 en Putnam-2025, empatando con Axiom por el primer lugar.
En el régimen práctico, usando LeanExplore y muestreo con restricciones, V4-Flash-Max obtuvo 81.00 en el benchmark Putnam-200 Pass@8, superando significativamente a Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) y Seed-1.5-Prover (26.50). Los resultados del régimen de frontera mostraron a V4 por delante de Seed-1.5-Prover (110/120) y Aristotle (100/120).
V4 emplea un enfoque híbrido de razonamiento formal-informal: el razonamiento informal genera soluciones candidatas en lenguaje natural, la autoverificación filtra los resultados y un agente formal completa pruebas rigurosas en Lean. Los resultados del régimen de frontera utilizaron escalamiento computacional a gran escala, mientras que las puntuaciones del régimen práctico reflejan mejor las capacidades estándar de despliegue.