Точность GPT-5.4 падает с 100% до 54% на ARC-AGI после многократного суммирования памяти

Исследование памяти агента от Beating, проведённое Диланом Чжаном, аспирантом Университета Иллинойса, показало, что многократное резюмирование опыта модели может ухудшать производительность, а не улучшать её. В задачах ARC-AGI GPT-5.4 достиг 100% точности на 19 проблемах без памяти, но после нескольких раундов компрессии памяти на основе правильных траекторий решения точность упала до 54%. Аналогично, в задачах покупок WebShop метод AWM показал результат 0,64 с 8 экспертными траекториями, но снизился до 0,20 при 128 траекториях, вернувшись к базовому уровню. Исследование предполагает, что проблема связана с чрезмерным резюмированием: каждый шаг абстракции теряет конкретные детали и смешивает зависящие от задачи правила в универсальные подсказки, в итоге ухудшая производительность модели.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев