Точність GPT-5.4 знижується зі 100% до 54% на ARC-AGI після багаторазового підсумовування пам’яті

2026-05-12 11:29:43

За Beating нещодавнє дослідження пам’яті агентів від Dylan Zhang, докторанта Університету Іллінойсу, показало, що повторне підсумовування досвіду моделі може погіршувати продуктивність, а не покращувати її. У завданнях ARC-AGI GPT-5.4 досяг 100% точності на 19 проблемах без пам’яті, але після кількох раундів компресії пам’яті на основі правильних траєкторій розв’язання точність знизилася до 54%. Аналогічно, у завданнях шопінгу WebShop метод AWM набрав 0,64 з 8 експертними траєкторіями, але впав до 0,20 зі 128 траєкторіями, повернувшись до базового рівня. Дослідження припускає, що проблема пов’язана з надмірним підсумовуванням: кожен крок абстрагування втрачає конкретні деталі й об’єднує правила, властиві саме цьому завданню, в узагальнені інструкції, що зрештою погіршує продуктивність моделі.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-12 06:01

Цзянсу запускає політики, орієнтовані на ШІ, та створює інноваційні зони для анотації даних 12 травня

05-12 03:29

Завантаження Grok падають до 8,3 млн у квітні з 20 млн у січні, відстаючи від ChatGPT за швидкістю впровадження серед користувачів

05-12 03:13

Сім моделей ШІ демонструють захисну поведінку, щоб запобігти вимкненню однолітків — дослідження від 12 травня

05-11 12:05

Засновник Cognition заявив, що ШІ перевершив людей у чистому міркуванні; перевага людини полягає в пошуку інформації в пам’яті

05-11 11:31

Центральний банк Китаю підкреслює індустрію ШІ як ключовий драйвер економічного зростання у звіті за 1 квартал

Поглиблений аналіз