Vals AI veröffentlicht Finanz-Agent v2-Benchmark; GPT-5.5 erzielt 51,76%, alle Modelle liegen bei strenger Bewertung unter 40%

ALL1,66%

Laut Beating veröffentlichte das KI-Evaluationsunternehmen Vals AI am 14. Mai seinen Finance-Agent v2 Benchmark der zweiten Generation und testete dabei Finanzanalyse-Workflows anhand von 927 durch Experten überprüften Fragen. GPT-5.5 belegte mit einer Genauigkeitsquote von 51,76% den ersten Platz und wurde nur knapp von Claude Opus 4.7 (51,51%) sowie Claude Sonnet 4.6 (51,03%) dicht dahinter gefolgt. Der Test verlangte von den Modellen, relevante Abschnitte über Hunderte von Seiten mit 10-K- und 10-Q-Finanzberichten unabhängig zu identifizieren und mehrstufige Berechnungen mit präzisen Zwischenwerten durchzuführen.

Unter strengen Bewertungsstandards, die vollständig korrekte Antworten erfordern, fielen die Genauigkeitsquoten aller führenden Modelle unter 40%, wobei die schwierigsten Kategorien – Finanzmodellierung und Präzedenzanalyse – bestenfalls nur 23% erreichten. Unter den übrigen Modellen belegte Kimi K2.6 den fünften Platz mit 44,87%, gefolgt von GLM 5.1 (44,79%) und DeepSeek V4 (44,08%). Im Vergleich zur vorherigen Version, in der Opus 4.7 64,4% erzielte, verdeutlicht der deutliche Rückgang, dass KI zwar einfache Abrufe bewältigt, jedoch weit davon entfernt ist, menschliche Analysten im komplexen Finanzbereich zu ersetzen, der strikte numerische Genauigkeit erfordert.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare