Mensaje de Gate News, 22 de abril — Google Research publicó ReasoningBank, un marco de memoria para agentes que permite a los agentes impulsados por modelos de lenguaje aprender continuamente después del despliegue. El marco extrae estrategias universales de razonamiento a partir de experiencias tanto de tareas exitosas como fallidas, almacenándolas en un banco de memoria para su recuperación y ejecución en tareas futuras similares. El artículo asociado se publicó en ICLR, y el código se ha publicado como código abierto en GitHub.
ReasoningBank mejora dos enfoques existentes: Synapse, que registra trayectorias completas de acciones, pero tiene una transferibilidad limitada debido a la gran granularidad, y Agent Workflow Memory, que solo aprende de casos exitosos. ReasoningBank realiza dos cambios clave: almacenar "patrones de razonamiento" en lugar de "secuencias de acciones", con cada memoria que contiene campos estructurados para título, descripción y contenido; e incorporar trayectorias de fallo en el aprendizaje. El marco utiliza un modelo para autoevaluar las trayectorias de ejecución, transformando las experiencias de fallo en reglas anti-errores. Por ejemplo, la regla "hacer clic en el botón Load More cuando se vea" evoluciona a "verificar primero el identificador de la página actual, evitar bucles infinitos de desplazamiento y luego hacer clic en load more."
El artículo también introduce Memory-aware Test-time Scaling (MaTTS), que asigna cómputo adicional durante la inferencia para explorar múltiples trayectorias y almacenar hallazgos en el banco de memoria. La expansión en paralelo ejecuta múltiples trayectorias distintas para la misma tarea, refinando estrategias más robustas mediante auto-comparación; la expansión secuencial refina iterativamente una sola trayectoria, almacenando el razonamiento intermedio en memoria.
En tareas de navegador WebArena y tareas de codificación SWE-Bench-Verified usando Gemini 2.5 Flash como agente ReAct, ReasoningBank logró una tasa de éxito 8.3% más alta en WebArena y 4.6% más alta en SWE-Bench-Verified en comparación con una línea base sin memoria, reduciendo los pasos promedio por tarea en aproximadamente 3. Al agregar MaTTS con expansión en paralelo (k=5), la tasa de éxito en WebArena mejoró aún en 3 puntos porcentuales y los pasos se redujeron en 0.4 adicionales.