Gate 新聞訊息,4 月 22 日 — Google Research 發布 ReasoningBank:一種代理記憶框架,可讓由大型語言模型驅動的代理在部署後持續學習。該框架從成功與失敗的任務經驗中提取通用推理策略,並將其存入記憶庫,以便在未來相似任務中進行檢索與執行。相關論文已發表於 ICLR,程式碼也已在 GitHub 上開源。
ReasoningBank 優於兩種既有方法:Synapse 會記錄完整的動作軌跡,但由於粒度較細,因而可遷移性有限;Agent Workflow Memory 只會從成功案例中學習。ReasoningBank 做出兩項關鍵改變:改為存放「推理模式」,而非「動作序列」——每個記憶都包含用於標題、描述與內容的結構化欄位;並將失敗軌跡納入學習。該框架使用模型對執行軌跡進行自我評估,將失敗經驗轉化為防陷阱規則。例如,規則「看到就點擊『載入更多』按鈕」會演變為「先驗證目前頁面識別符,避免無限捲動迴圈,然後再點擊載入更多」。
該論文也提出了具備記憶感知的測試階段縮放 (MaTTS),它會在推論期間配置額外算力,以探索多條軌跡並將發現存入記憶庫。並行擴展會為同一任務生成多條不同的軌跡,透過自我比較來強化更穩健的策略;序列擴展則以迭代方式精煉單一軌跡,並將中間推理存入記憶。
在使用 Gemini 2.5 Flash 作為 ReAct 代理的 WebArena 瀏覽任務與 SWE-Bench-Verified 編碼任務中,ReasoningBank 相較於不使用記憶的基準,WebArena 的成功率提升 8.3%,SWE-Bench-Verified 的成功率提升 4.6%,且每個任務的平均步數降低約 3。將 MaTTS 搭配並行擴展 (k=5) 進一步使 WebArena 的成功率提升 3 個百分點,並使步數再降低 0.4。