Google Research veröffentlicht ReasoningBank: KI-Agenten lernen Verarbeitungsstrategien aus Erfolg und Misserfolg

Gate News-Nachricht, 22. April — Google Research hat ReasoningBank veröffentlicht, ein Framework für Agentenspeicher, das modellbasierte Agenten mit großen Sprachmodellen ermöglicht, nach der Bereitstellung kontinuierlich dazuzulernen. Das Framework extrahiert universelle Verarbeitungsstrategien aus sowohl erfolgreichen als auch fehlgeschlagenen Aufgaben-Erfahrungen und speichert sie in einem Speicher-Bank-System zur späteren Suche und Ausführung bei ähnlichen zukünftigen Aufgaben. Das zugehörige Paper wurde auf ICLR veröffentlicht, und der Code wurde auf GitHub open-sourced.

ReasoningBank verbessert zwei bestehende Ansätze: Synapse, das vollständige Aktionsverläufe aufzeichnet, jedoch nur eingeschränkt übertragbar ist, da es eine sehr feingranulare Granularität hat, und Agent Workflow Memory, das nur aus erfolgreichen Fällen lernt. ReasoningBank bringt zwei zentrale Änderungen: das Speichern von "reasoning patterns" statt von "action sequences", wobei jede Memory strukturierte Felder für Titel, Beschreibung und Inhalt enthält; und das Einbeziehen von Failure-Trajectories in das Lernen. Das Framework verwendet ein Modell, um Ausführungsverläufe selbst zu bewerten, und verwandelt damit Misserfolgserfahrungen in Anti-Fallstrick-Regeln. Beispielsweise entwickelt sich die Regel "klicke auf die Schaltfläche „Load More“, wenn sie sichtbar ist" zu "prüfe zuerst die ID der aktuellen Seite, vermeide dann unendliche Scroll-Schleifen, und klicke anschließend auf „load more“."

Das Paper führt außerdem Memory-aware Test-time Scaling (MaTTS) ein, das während der Inferenz zusätzliche Rechenleistung bereitstellt, um mehrere Verläufe zu erkunden und die Erkenntnisse in der Speicher-Bank zu speichern. Parallel Expansion führt mehrere unterschiedliche Verläufe für dieselbe Aufgabe aus und verbessert robustere Strategien durch Selbstvergleich; sequentielle Expansion verfeinert iterativ genau einen Verlauf und speichert dabei die Zwischenerkenntnisse im Speicher.

Bei WebArena-Browsing-Aufgaben und SWE-Bench-Verified-Coding-Aufgaben, bei denen Gemini 2.5 Flash als ReAct-Agent eingesetzt wird, erreichte ReasoningBank eine um 8,3% höhere Erfolgsquote bei WebArena und um 4,6% höhere bei SWE-Bench-Verified im Vergleich zu einer Baseline ohne Memory. Dabei reduzierte es die durchschnittliche Anzahl der Schritte pro Aufgabe um etwa 3. Das Hinzufügen von MaTTS mit Parallel Expansion (k=5) verbesserte die WebArena-Erfolgsquote zusätzlich um 3 Prozentpunkte und reduzierte die Schritte um weitere 0,4.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare