Laut Beating veröffentlichte das KI-Evaluationsunternehmen Vals AI am 14. Mai seinen Finance-Agent v2 Benchmark der zweiten Generation und testete dabei Finanzanalyse-Workflows anhand von 927 durch Experten überprüften Fragen. GPT-5.5 belegte mit einer Genauigkeitsquote von 51,76% den ersten Platz und wurde nur knapp von Claude Opus 4.7 (51,51%) sowie Claude Sonnet 4.6 (51,03%) dicht dahinter gefolgt. Der Test verlangte von den Modellen, relevante Abschnitte über Hunderte von Seiten mit 10-K- und 10-Q-Finanzberichten unabhängig zu identifizieren und mehrstufige Berechnungen mit präzisen Zwischenwerten durchzuführen.
Unter strengen Bewertungsstandards, die vollständig korrekte Antworten erfordern, fielen die Genauigkeitsquoten aller führenden Modelle unter 40%, wobei die schwierigsten Kategorien – Finanzmodellierung und Präzedenzanalyse – bestenfalls nur 23% erreichten. Unter den übrigen Modellen belegte Kimi K2.6 den fünften Platz mit 44,87%, gefolgt von GLM 5.1 (44,79%) und DeepSeek V4 (44,08%). Im Vergleich zur vorherigen Version, in der Opus 4.7 64,4% erzielte, verdeutlicht der deutliche Rückgang, dass KI zwar einfache Abrufe bewältigt, jedoch weit davon entfernt ist, menschliche Analysten im komplexen Finanzbereich zu ersetzen, der strikte numerische Genauigkeit erfordert.