Gate News Nachricht, 24. April — DeepSeek V4 hat Ergebnisse aus formalen mathematischen Schlussfolgerungsbewertungen veröffentlicht und eine perfekte Punktzahl von 120/120 bei Putnam-2025 erreicht, womit es mit Axiom für den ersten Platz gleichzieht.
Im praktischen Regime, das LeanExplore und eingeschränktes Sampling nutzt, erzielte V4-Flash-Max 81,00 auf dem Putnam-200 Pass@8-Benchmark und übertraf damit Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) und Seed-1.5-Prover (26.50) deutlich. Die Ergebnisse aus dem Frontier-Regime zeigten, dass V4 Seed-1.5-Prover (110/120) und Aristotle (100/120) voraus ist.
V4 nutzt einen hybriden Ansatz aus formaler und informeller Schlussfolgerung: Informelles Reasoning erzeugt Kandidatenlösungen in natürlicher Sprache, die Selbstverifikation filtert die Ergebnisse, und ein formaler Agent vervollständigt die rigorosen Beweise in Lean. Die Ergebnisse aus dem Frontier-Regime nutzten eine groß angelegte rechnerische Skalierung, während die Scores im praktischen Regime die Fähigkeiten bei einer standardmäßigen Bereitstellung besser widerspiegeln.