DeepSeek V4 Consegue Pontuação Perfeita no Putnam-2025, Empata com Axiom em Raciocínio Matemático Formal

Mensagem do Gate News, 24 de abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, alcançando uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar.

No regime prático usando LeanExplore e amostragem restrita, o V4-Flash-Max obteve 81.00 no benchmark Putnam-200 Pass@8, superando significativamente o Seed-2.0-Prover (35.50), o Gemini 3 Pro (26.50) e o Seed-1.5-Prover (26.50). Os resultados do regime de fronteira mostraram a V4 à frente do Seed-1.5-Prover (110/120) e do Aristotle (100/120).

A V4 emprega uma abordagem híbrida de raciocínio formal-informal: o raciocínio informal gera soluções candidatas em linguagem natural, a auto-verificação filtra os resultados e um agente formal completa provas rigorosas em Lean. Os resultados do regime de fronteira utilizaram escalonamento computacional em larga escala, enquanto as pontuações do regime prático refletem melhor as capacidades padrão de implantação.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários