Vals AI Lança o Benchmark do Finance Agent v2; GPT-5.5 Obtém 51,76%, Todos os Modelos Ficam Abaixo de 40% Com Regras Rígidas de Avaliação

ALL-1,39%

A Beating, a empresa de avaliação de IA Vals AI divulgou seu benchmark de agente financeiro de segunda geração, o Finance Agent v2, em 14 de maio, testando fluxos de análise financeira por meio de 927 perguntas revisadas por especialistas. O GPT-5.5 liderou o ranking com uma taxa de acerto de 51,76%, seguido de perto por Claude Opus 4.7 (51,51%) e Claude Sonnet 4.6 (51,03%). O teste exigiu que os modelos localizassem de forma independente seções relevantes em centenas de páginas de demonstrações financeiras 10-K e 10-Q e concluíssem cálculos de várias etapas com números intermediários precisos.

Sob padrões rigorosos de avaliação que exigem respostas totalmente corretas, as taxas de acerto de todos os modelos líderes ficaram abaixo de 40%, e as categorias mais difíceis — modelagem financeira e análise de precedentes — chegaram a apenas 23%, no máximo. Entre outros modelos, Kimi K2.6 ficou em quinto lugar com 44,87%, seguido por GLM 5.1 (44,79%) e DeepSeek V4 (44,08%). Em comparação com a versão anterior, em que Opus 4.7 obteve 64,4%, a queda significativa destaca que, embora a IA lide com recuperação simples, ela ainda está muito longe de substituir analistas humanos no domínio complexo das finanças que exige precisão numérica rigorosa.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários