Vals AI publie le test de référence (benchmark) de l’agent financier v2 ; GPT-5.5 obtient 51,76 %, tous les modèles passent sous la barre des 40 % sous une notation stricte

ALL-3,7%

D’après Beating, le cabinet d’évaluation par l’IA Vals AI a publié son benchmark de deuxième génération Finance Agent v2 le 14 mai, en testant des flux de travail d’analyse financière via 927 questions examinées par des experts. GPT-5.5 a pris la tête du classement avec un taux de précision de 51,76%, suivi de près par Claude Opus 4.7 (51,51%) et Claude Sonnet 4.6 (51,03%). Le test obligeait les modèles à localiser indépendamment les sections pertinentes sur des centaines de pages de rapports financiers 10-K et 10-Q, puis à réaliser des calculs multi-étapes avec des chiffres intermédiaires précis.

Avec des normes d’évaluation strictes exigeant des réponses entièrement correctes, les taux de précision de tous les principaux modèles sont tombés sous 40%, les catégories les plus difficiles — modélisation financière et analyse de précédents — n’atteignant au mieux que 23%. Parmi les autres modèles, Kimi K2.6 s’est classé cinquième avec 44,87%, suivi de GLM 5.1 (44,79%) et DeepSeek V4 (44,08%). Par rapport à la version précédente, où Opus 4.7 obtenait 64,4%, cette baisse marquée souligne que, si l’IA gère des opérations simples de récupération d’informations, elle reste très loin de remplacer les analystes humains dans un domaine financier complexe nécessitant une précision numérique stricte.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire