DeepSeek V4 logra una puntuación perfecta en Putnam-2025 y empata con Axiom en razonamiento matemático formal

Mensaje de Gate News, 24 de abril — DeepSeek V4 ha publicado resultados de evaluaciones de razonamiento matemático formal, logrando una puntuación perfecta de 120/120 en Putnam-2025, empatando con Axiom por el primer lugar.

En el régimen práctico, usando LeanExplore y muestreo con restricciones, V4-Flash-Max obtuvo 81.00 en el benchmark Putnam-200 Pass@8, superando significativamente a Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) y Seed-1.5-Prover (26.50). Los resultados del régimen de frontera mostraron a V4 por delante de Seed-1.5-Prover (110/120) y Aristotle (100/120).

V4 emplea un enfoque híbrido de razonamiento formal-informal: el razonamiento informal genera soluciones candidatas en lenguaje natural, la autoverificación filtra los resultados y un agente formal completa pruebas rigurosas en Lean. Los resultados del régimen de frontera utilizaron escalamiento computacional a gran escala, mientras que las puntuaciones del régimen práctico reflejan mejor las capacidades estándar de despliegue.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios