رسالة أخبار البوابة، 22 أبريل — أطلقت Google Research ReasoningBank، وهو إطار عمل لِـذاكرة الوكلاء يتيح لوكلاء مدفوعين بنماذج لغوية كبيرة التعلّم بشكل مستمر بعد النشر. يستخرج الإطار استراتيجيات استدلال عامة من تجارب المهام الناجحة والفاشلة على حد سواء، ويخزنها في "بنك ذاكرة" للاسترجاع والتنفيذ في مهام مستقبلية مماثلة. نُشرت الورقة البحثية ذات الصلة في ICLR، وتم فتح مصدر الكود على GitHub.
يُحسّن ReasoningBank نهجين قائمين: Synapse، الذي يسجل مسارات الإجراءات الكاملة لكنه يملك قابلية نقل محدودة بسبب الدقة الحبيبية، وAgent Workflow Memory، الذي يتعلم فقط من الحالات الناجحة. يُجري ReasoningBank تغيئين رئيسيين: تخزين "أنماط الاستدلال" بدلًا من "تسلسلات الإجراءات"، حيث تحتوي كل ذاكرة على حقول منظمة للعُنوان والوصف والمحتوى؛ وإدماج مسارات الفشل في التعلم. يستخدم الإطار نموذجًا لتقييم مسارات التنفيذ ذاتيًا، محوّلًا تجارب الفشل إلى قواعد لتجنّب الوقوع في المزالق. على سبيل المثال، تصبح القاعدة "انقر على زر تحميل المزيد عندما يتم رؤيته" "تحقق أولًا من مُعرّف الصفحة الحالية، وتجنب حلقات التمرير اللانهائي، ثم انقر على تحميل المزيد."
تُقدّم الورقة أيضًا Memory-aware Test-time Scaling (MaTTS)، التي تخصص قدرة حسابية إضافية أثناء الاستدلال لاستكشاف عدة مسارات وتخزين النتائج في بنك الذاكرة. يقوم التوسّع الموازي بتشغيل عدة مسارات مميزة للاتّكال نفسه، مما يصقل استراتيجيات أكثر متانة عبر المقارنة الذاتية؛ بينما يقوم التوسّع التسلسلي بتحسين مسار واحد بشكل تكراري، مع تخزين التفكير الوسيط في الذاكرة.
في مهام متصفح WebArena ومهام الترميز SWE-Bench-Verified باستخدام Gemini 2.5 Flash كوكيل ReAct، حقق ReasoningBank معدل نجاح أعلى بنسبة 8.3% على WebArena وأعلى بنسبة 4.6% على SWE-Bench-Verified مقارنةً بخط أساس دون ذاكرة، مع تقليل متوسط الخطوات لكل مهمة بحوالي 3. وبإضافة MaTTS مع التوسّع الموازي (k=5)، تحسّن كذلك معدل نجاح WebArena بمقدار 3 نقاط مئوية إضافية وانخفض عدد الخطوات بمقدار 0.4 أخرى.