Vals AI выпустила бенчмарк v2 Finance Agent; GPT-5.5 набрала 51,76%, все модели не дотянули до 40% при строгой оценке

ALL3,25%

Фирма по оценке ИИ Vals AI выпустила 14 мая бенчмарк Finance Agent v2 второго поколения от Vals AI, протестировав финансовые аналитические рабочие процессы на 927 вопросах, проверенных экспертами. GPT-5.5 заняла первое место с точностью 51,76%, а вслед за ней расположились Claude Opus 4.7 (51,51%) и Claude Sonnet 4.6 (51,03%). Тест требовал, чтобы модели независимо находили релевантные разделы в сотнях страниц финансовых отчётов 10-K и 10-Q и выполняли многошаговые расчёты с точными промежуточными значениями.

При жёстких стандартах оценивания, требующих полностью правильных ответов, точность всех ведущих моделей упали ниже 40%, а самые сложные категории — финансовое моделирование и анализ прецедентов — достигали максимум лишь 23%. Среди других моделей Kimi K2.6 заняла пятое место с 44,87%, далее следуют GLM 5.1 (44,79%) и DeepSeek V4 (44,08%). По сравнению с предыдущей версией, где Opus 4.7 набрала 64,4%, заметное снижение подчёркивает, что хотя ИИ справляется с простым поиском, он всё ещё далёк от замены человеческих аналитиков в финансовой сфере — области, где требуется строгая числовая точность.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев