Точність GPT-5.4 знижується зі 100% до 54% на ARC-AGI після багаторазового підсумовування пам’яті

За Beating нещодавнє дослідження пам’яті агентів від Dylan Zhang, докторанта Університету Іллінойсу, показало, що повторне підсумовування досвіду моделі може погіршувати продуктивність, а не покращувати її. У завданнях ARC-AGI GPT-5.4 досяг 100% точності на 19 проблемах без пам’яті, але після кількох раундів компресії пам’яті на основі правильних траєкторій розв’язання точність знизилася до 54%. Аналогічно, у завданнях шопінгу WebShop метод AWM набрав 0,64 з 8 експертними траєкторіями, але впав до 0,20 зі 128 траєкторіями, повернувшись до базового рівня. Дослідження припускає, що проблема пов’язана з надмірним підсумовуванням: кожен крок абстрагування втрачає конкретні деталі й об’єднує правила, властиві саме цьому завданню, в узагальнені інструкції, що зрештою погіршує продуктивність моделі.
Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів