Vals AI lanza el benchmark del agente financiero v2; GPT-5.5 obtiene 51,76%, todos los modelos quedan por debajo del 40% con una calificación estricta

ALL1,9%

Según Beating, la firma de evaluación de IA Vals AI lanzó su benchmark de agente financiero de segunda generación v2 el 14 de mayo, poniendo a prueba flujos de trabajo de análisis financiero mediante 927 preguntas revisadas por expertos. GPT-5.5 encabezó el ranking con una tasa de acierto del 51,76%, seguido de cerca por Claude Opus 4.7 (51,51%) y Claude Sonnet 4.6 (51,03%). La prueba exigía que los modelos localizaran de forma independiente secciones relevantes a través de cientos de páginas de estados financieros 10-K y 10-Q, y completaran cálculos de varios pasos con cifras intermedias precisas.

Bajo estrictos criterios de calificación que requieren respuestas completamente correctas, las tasas de acierto de todos los modelos líderes cayeron por debajo del 40%, y las categorías más difíciles—modelado financiero y análisis de precedentes—alcanzaron solo 23% como máximo. Entre otros modelos, Kimi K2.6 ocupó el quinto lugar con 44,87%, seguido por GLM 5.1 (44,79%) y DeepSeek V4 (44,08%). En comparación con la versión anterior, donde Opus 4.7 obtuvo 64,4%, la caída significativa subraya que, si bien la IA gestiona la recuperación sencilla, todavía está lejos de reemplazar a los analistas humanos en el complejo ámbito de las finanzas que exige precisión numérica estricta.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios