Sakana AI Fugu Ultra против Fable 5: Сравнение бенчмарков поставлено под сомнение из-за различий в тестовой структуре

Согласно мониторингу Beating, заявленные победы мультиагентной системы Sakana AI Fugu Ultra над Fable 5 от Anthropic в бенчмарках научного мышления и кодирования вызывают широкий скептицизм среди ИИ-сообщества.

Критики утверждают, что результаты бенчмарков сильно зависят от тестовых скэффолдов, используемых во время оценки. Разные реализации скэффолдов могут вносить вариации на 10-20 пунктов, что означает, что заявленные различия в производительности могут отражать оптимизацию системной инженерии, а не фундаментальные улучшения возможностей моделей. И Sakana AI, и Anthropic опубликовали результаты на основе проприетарных, специфичных для вендоров скэффолдов без единой сторонней тестовой среды, что ограничивает надежность прямых сравнений.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев