Google Research випускає ReasoningBank: AI-агенти вчаться стратегіям міркування з успіху та невдач

Повідомлення Gate News, 22 квітня — Google Research опублікувала ReasoningBank, фреймворк пам’яті агентів, який дає змогу агентам, керованим великими мовними моделями, безперервно вчитись після розгортання. Фреймворк витягує універсальні стратегії міркування як з успішних, так і з невдалих досвідів виконання завдань, зберігаючи їх у банку пам’яті для пошуку та виконання під час подібних майбутніх завдань. Відповідна стаття була опублікована в ICLR, а код відкрито на GitHub.

ReasoningBank удосконалює два наявні підходи: Synapse, який записує повні траєкторії дій, але має обмежену переносимість через дрібнозернисту деталізацію, та Agent Workflow Memory, яка навчається лише на успішних випадках. ReasoningBank вносить дві ключові зміни: зберігання "patternів міркування" замість "послідовностей дій", де кожна пам’ять містить структуровані поля для назви, опису та вмісту; і включення невдалих траєкторій у процес навчання. Фреймворк використовує модель для самостійної оцінки траєкторій виконання, перетворюючи невдалий досвід на правила проти типових помилок. Наприклад, правило "клікніть кнопку Load More, коли її побачите" еволюціонує в "спершу перевірте ідентифікатор поточної сторінки, уникайте нескінченних циклів прокрутки, а потім натисніть load more."

Стаття також вводить Memory-aware Test-time Scaling (MaTTS), яке виділяє додаткові обчислення під час інференсу, щоб досліджувати кілька траєкторій і зберігати результати в банку пам’яті. Паралельне розгортання виконує кілька різних траєкторій для одного й того ж завдання, уточнюючи більш надійні стратегії через самопорівняння; послідовне розгортання ітеративно уточнює одну траєкторію, зберігаючи проміжне міркування в пам’яті.

У браузерних задачах WebArena та задачах кодування SWE-Bench-Verified із використанням Gemini 2.5 Flash як агента ReAct, ReasoningBank досягла на 8.3% вищого рівня успіху на WebArena та на 4.6% вищого на SWE-Bench-Verified порівняно з базовим підходом без пам’яті, зменшивши середню кількість кроків на завдання приблизно на 3. Додавання MaTTS із паралельним розгортанням (k=5) ще більше покращило рівень успіху на WebArena на 3 відсоткові пункти та зменшило кількість кроків додатково на 0.4.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів