Фирма по оценке ИИ Vals AI выпустила 14 мая бенчмарк Finance Agent v2 второго поколения от Vals AI, протестировав финансовые аналитические рабочие процессы на 927 вопросах, проверенных экспертами. GPT-5.5 заняла первое место с точностью 51,76%, а вслед за ней расположились Claude Opus 4.7 (51,51%) и Claude Sonnet 4.6 (51,03%). Тест требовал, чтобы модели независимо находили релевантные разделы в сотнях страниц финансовых отчётов 10-K и 10-Q и выполняли многошаговые расчёты с точными промежуточными значениями.

При жёстких стандартах оценивания, требующих полностью правильных ответов, точность всех ведущих моделей упали ниже 40%, а самые сложные категории — финансовое моделирование и анализ прецедентов — достигали максимум лишь 23%. Среди других моделей Kimi K2.6 заняла пятое место с 44,87%, далее следуют GLM 5.1 (44,79%) и DeepSeek V4 (44,08%). По сравнению с предыдущей версией, где Opus 4.7 набрала 64,4%, заметное снижение подчёркивает, что хотя ИИ справляется с простым поиском, он всё ещё далёк от замены человеческих аналитиков в финансовой сфере — области, где требуется строгая числовая точность.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-14 06:25

Google запустит Gemini 3.2 Flash на I/O 20 мая, обеспечив производительность, сопоставимую с GPT-5.5, при стоимости в 1/15

05-14 04:53

GPT-5.6 Успешно Доступен через Codex OAuth, размер контекстного окна увеличивается до 1,5 млн токенов; ожидается запуск в июне

05-14 03:05

Возможности взлома с помощью ИИ удваиваются каждые 4,7 месяца; предварительный просмотр Claude Mythos и GPT-5.5 превышают пределы тестов

05-14 01:49

Mistral AI ведёт переговоры с европейскими банками о внедрении продукта, конкурирующего с Mythos

05-12 12:58

Artificial Analysis выпускает бенчмарк для кодирующих агентов; Zhipu GLM-5.1 занимает первое место среди моделей с открытым исходным кодом

Детальный анализ