Fable 5 провалила все самые сложные задачи в экзамене UC Berkeley ALE и обходится в 4–12 раз дороже, чем конкуренты

Согласно UC Berkeley RDI, последние результаты оценки Agents' Last Exam (ALE), выпущенные на этой неделе, показывают 0% успешности на самых сложных задачах, требующих длительных рассуждений и глубокой экспертизы, во всех протестированных ИИ-агентах, включая недавно выпущенную Fable 5. В пересчёте на затраты API за задачу Fable 5 взимала 15,70 долларов — в 4 раза больше, чем GPT-5.5 (3,80 доллара), и в 12 раз больше, чем Composer 2.5 (1,33 доллара). Оценка охватила 55 профессиональных доменов с более чем 1 500 экспертно верифицированными задачами и выявила, что агенты чаще всего терпят неудачу, преждевременно объявляя успех, не проверяя результаты.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев