Google Research publica ReasoningBank: los agentes de IA aprenden estrategias de razonamiento del éxito y del fracaso

Mensaje de Gate News, 22 de abril — Google Research publicó ReasoningBank, un marco de memoria para agentes que permite a los agentes impulsados por modelos de lenguaje aprender continuamente después del despliegue. El marco extrae estrategias universales de razonamiento a partir de experiencias tanto de tareas exitosas como fallidas, almacenándolas en un banco de memoria para su recuperación y ejecución en tareas futuras similares. El artículo asociado se publicó en ICLR, y el código se ha publicado como código abierto en GitHub.

ReasoningBank mejora dos enfoques existentes: Synapse, que registra trayectorias completas de acciones, pero tiene una transferibilidad limitada debido a la gran granularidad, y Agent Workflow Memory, que solo aprende de casos exitosos. ReasoningBank realiza dos cambios clave: almacenar “patrones de razonamiento” en lugar de “secuencias de acciones”, con cada memoria que contiene campos estructurados para título, descripción y contenido; e incorporar trayectorias de fallo en el aprendizaje. El marco utiliza un modelo para autoevaluar las trayectorias de ejecución, transformando las experiencias de fallo en reglas anti-errores. Por ejemplo, la regla “hacer clic en el botón Load More cuando se vea” evoluciona a “verificar primero el identificador de la página actual, evitar bucles infinitos de desplazamiento y luego hacer clic en load more.”

El artículo también introduce Memory-aware Test-time Scaling (MaTTS), que asigna cómputo adicional durante la inferencia para explorar múltiples trayectorias y almacenar hallazgos en el banco de memoria. La expansión en paralelo ejecuta múltiples trayectorias distintas para la misma tarea, refinando estrategias más robustas mediante auto-comparación; la expansión secuencial refina iterativamente una sola trayectoria, almacenando el razonamiento intermedio en memoria.

En tareas de navegador WebArena y tareas de codificación SWE-Bench-Verified usando Gemini 2.5 Flash como agente ReAct, ReasoningBank logró una tasa de éxito 8.3% más alta en WebArena y 4.6% más alta en SWE-Bench-Verified en comparación con una línea base sin memoria, reduciendo los pasos promedio por tarea en aproximadamente 3. Al agregar MaTTS con expansión en paralelo (k=5), la tasa de éxito en WebArena mejoró aún en 3 puntos porcentuales y los pasos se redujeron en 0.4 adicionales.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

PicWe Lanza una Cartera de Agentes de IA con Gestión de Claves en el Dispositivo

PicWe anuncia la versión beta pública de PicWe Wallet, una cartera de claves sin frases de recuperación con agentes de IA y en el dispositivo. Admite activos multi-cadena, intercambios, automatización accesible por IA y tiene como objetivo unificar la infraestructura de RWA. PicWe ha lanzado la versión beta pública de PicWe Wallet, una cartera habilitada para agentes de IA que almacena las claves en el dispositivo, elimina las frases de recuperación y mantiene las operaciones críticas en local. La beta admite la gestión de activos multi-cadena, intercambios y comisiones basadas en stablecoin, mientras habilita interacciones programables con IA. Las iniciativas más amplias de PicWe posicionan la plataforma como infraestructura unificada para activos del mundo real, habilitando emisión, circulación, liquidación, pagos transfronterizos, tokenización y coordinación de la cadena de suministro para casos de uso empresariales.

GateNewsHace41m

Hugging Face publica en código abierto ml-intern, un agente de IA para investigación autónoma en ML

ml-intern de código abierto, agente de investigación autónoma de ML de Hugging Face que lee artículos, selecciona datos, entrena, evalúa e itera a través de ciencia, medicina y matemáticas. Resumen: ml-intern de Hugging Face es un agente autónomo de investigación en ML de código abierto que lee artículos, selecciona conjuntos de datos, entrena en GPUs locales o en la nube, evalúa resultados e itera mejoras. Construido sobre smolagents con interfaces CLI y web, navega por arXiv/HF Papers, HF Hub y HF Jobs. Las demostraciones abarcan ciencia, medicina y matemáticas, mostrando automatización de extremo a extremo y ganancias de rendimiento.

GateNewsHace46m

El profesor de Tsinghua Dai Jifeng lanza Naive.ai y recauda ~$300M con una valoración de $800M

Mensaje de Gate News, 22 de abril: Dai Jifeng, profesor asociado del Departamento de Ingeniería Electrónica de la Universidad Tsinghua, ha fundado Naive.ai, una empresa centrada en el post-entrenamiento de modelos de código abierto y en agentes de IA. La startup ha recaudado aproximadamente $300 millones con una valoración estimada de $80

GateNewshace2h

AWS Amplía los Flujos de Trabajo de IA de Múltiples Agentes y Admite Claude Opus 4.7 en Bedrock

Mensaje de Gate News, 22 de abril — Amazon Web Services anunció la expansión de sus iniciativas de IA agentica mediante flujos de trabajo de múltiples agentes, respaldando a Claude Opus 4.7 de Anthropic en Amazon Bedrock para ayudar a los clientes a ir más allá de los pilotos de IA generativa. La empresa está ampliando las relaciones con socios a medida que los clientes

GateNewshace2h

0G Labs se asocia con Alibaba Cloud para habilitar acceso a agentes de IA en cadena al modelo Qwen

Mensaje de Gate News, 22 de abril — 0G Labs ha anunciado una asociación con Alibaba Cloud para permitir que los agentes de IA invoquen directamente el modelo de lenguaje grande Qwen de Alibaba en la cadena mediante la infraestructura blockchain de 0G. La colaboración marca un cambio en los paradigmas de acceso a la IA, pasando de enfoques basados en API a infraestructura de IA programable y tokenizada, donde los agentes de IA pueden llamar a Qwen para realizar inferencias directamente en la red 0G, con la verificación a cargo de 0G.

GateNewshace3h

0G integra Alibaba Cloud Qianwen LLM y el primer agente de IA en la cadena de bloques obtiene acceso a un modelo empresarial

La Fundación 0G anunció el 21 de abril una colaboración oficial con Alibaba Cloud, mediante la cual el modelo de lenguaje a gran escala Qwen (Qianwen) se integra en una infraestructura descentralizada, para que los agentes de IA puedan llamar directamente a LLM de nivel empresarial desde el entorno on-chain. Los desarrolladores podrán usar las capacidades de inferencia de Qwen a través de un mecanismo de acceso con control mediante tokens, convirtiendo de manera efectiva las llamadas a LLM en operaciones medibles en la cadena, haciendo que Qwen sea uno de los principales LLM comerciales de las primeras incorporaciones en un marco de agentes descentralizados.

MarketWhisperhace4h
Comentar
0/400
Sin comentarios