DeepSeek V4 erreicht perfekte Punktzahl bei Putnam-2025 und teilt den ersten Platz mit Axiom in formaler mathematischer Beweisführung

Gate News Nachricht, 24. April — DeepSeek V4 hat Ergebnisse aus formalen mathematischen Schlussfolgerungsbewertungen veröffentlicht und eine perfekte Punktzahl von 120/120 bei Putnam-2025 erreicht, womit es mit Axiom für den ersten Platz gleichzieht.

Im praktischen Regime, das LeanExplore und eingeschränktes Sampling nutzt, erzielte V4-Flash-Max 81,00 auf dem Putnam-200 Pass@8-Benchmark und übertraf damit Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) und Seed-1.5-Prover (26.50) deutlich. Die Ergebnisse aus dem Frontier-Regime zeigten, dass V4 Seed-1.5-Prover (110/120) und Aristotle (100/120) voraus ist.

V4 nutzt einen hybriden Ansatz aus formaler und informeller Schlussfolgerung: Informelles Reasoning erzeugt Kandidatenlösungen in natürlicher Sprache, die Selbstverifikation filtert die Ergebnisse, und ein formaler Agent vervollständigt die rigorosen Beweise in Lean. Die Ergebnisse aus dem Frontier-Regime nutzten eine groß angelegte rechnerische Skalierung, während die Scores im praktischen Regime die Fähigkeiten bei einer standardmäßigen Bereitstellung besser widerspiegeln.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare