ゲートニュース 4月22日 — Google Researchは、エージェントのメモリーフレームワークであるReasoningBankをリリースしました。これは、大規模言語モデル主導のエージェントが、デプロイ後も継続的に学習できるようにするものです。このフレームワークは、成功したタスク経験と失敗したタスク経験の両方から普遍的な推論戦略を抽出し、それらをメモリーバンクに保存して、同様の将来のタスクでの検索と実行に活用します。関連論文はICLRで公開されており、コードはGitHubでオープンソース化されています。
ReasoningBankは、既存の2つのアプローチを改良しています。Synapseは完全な行動の軌跡を記録しますが、きめ細かな粒度のために転用可能性が限られています。また、Agent Workflow Memoryは成功したケースのみから学習します。ReasoningBankは2つの重要な変更を行います。"アクションシーケンス"ではなく"推論パターン"を保存し、各メモリにタイトル、説明、コンテンツの構造化フィールドを含めること。そして、失敗の軌跡を学習に取り込むことです。このフレームワークは、実行軌跡を自己評価するモデルを使用し、失敗の経験を「落とし穴回避ルール」へと変換します。たとえば、ルール"見かけたらLoad Moreボタンをクリックする"は、"まず現在のページ識別子を確認し、無限スクロールのループを避けてから、load moreをクリックする"へと進化します。
この論文は、Memory-aware Test-time Scaling (MaTTS)も導入しています。これは推論中に追加の計算を割り当て、複数の軌跡を探索して、その発見をメモリーバンクに保存するものです。並列拡張では同一タスクに対して複数の異なる軌跡を実行し、自己比較によってより頑健な戦略を洗練します。一方で逐次拡張では単一の軌跡を反復的に改良し、推論の途中結果をメモリに保存します。
Gemini 2.5 FlashをReActエージェントとして用いたWebArenaのブラウザタスク、およびSWE-Bench-Verifiedのコーディングタスクでは、ReasoningBankは、メモリなしのベースラインと比べてWebArenaで成功率が8.3%高く、SWE-Bench-Verifiedでは4.6%高くなりました。さらに、タスクあたりの平均ステップ数を約3%減らしました。並列拡張 (k=5)でMaTTSを追加すると、WebArenaの成功率はさらに3ポイント向上し、ステップ数もさらに0.4減少しました。