Die Genauigkeit von GPT-5.4 sinkt auf ARC-AGI nach wiederholter Speichermanipulation von 100% auf 54%

Laut Beating fand eine aktuelle Agent-Memory-Studie von Dylan Zhang, einem PhD-Studenten an der University of Illinois, dass das wiederholte Zusammenfassen von Modell-Erfahrungen die Leistung verschlechtern kann statt sie zu verbessern. In ARC-AGI-Aufgaben erreichte GPT-5.4 100% Genauigkeit bei 19 Problemen ohne Memory, aber nach mehreren Runden Memory-Komprimierung auf Basis korrekter Lösungsverläufe sank die Genauigkeit auf 54%. Ebenso erzielte die AWM-Memory-Methode bei WebShop-Shopping-Aufgaben 0,64 mit 8 Expert-Trajectories, fiel jedoch auf 0,20 mit 128 Trajectories zurück und kehrte zum Ausgangsniveau zurück. Die Forschung legt nahe, dass das Problem aus einer Übersummarifizierung resultiert: Jeder Abstraktionsschritt lässt spezifische Details verloren gehen und führt aufgabenbezogene Regeln mit generischer Anleitung zusammen, was letztlich die Modellleistung verschlechtert.
Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare