Согласно мониторингу Beating, заявленные победы мультиагентной системы Sakana AI Fugu Ultra над Fable 5 от Anthropic в бенчмарках научного мышления и кодирования вызывают широкий скептицизм среди ИИ-сообщества.

Критики утверждают, что результаты бенчмарков сильно зависят от тестовых скэффолдов, используемых во время оценки. Разные реализации скэффолдов могут вносить вариации на 10-20 пунктов, что означает, что заявленные различия в производительности могут отражать оптимизацию системной инженерии, а не фундаментальные улучшения возможностей моделей. И Sakana AI, и Anthropic опубликовали результаты на основе проприетарных, специфичных для вендоров скэффолдов без единой сторонней тестовой среды, что ограничивает надежность прямых сравнений.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

4ч назад

Sakana AI и KPMG представляют CoffeeBench, 90-дневную симуляцию торговли AI-агентов; GPT-5.5 и Claude демонстрируют контрастные стратегии.

11ч назад

Google реорганизует целевую группу по AI-кодированию, поскольку два ключевых исследователя уходят на этой неделе, акции падают на 5%

11ч назад

Карпати столкнулся с критикой в X после похвалы в адрес Claude; Маск обещает пересмотр алгоритма

13ч назад

Anthropic блокирует доступ к Fable 5 и Mythos 5 в ЕС из-за опасений взлома безопасности

06-25 06:33

Система Fugu Ultra Multi-Agent от Sakana AI запускается на OpenRouter, превосходя Fable 5 в бенчмарках.

Детальный анализ