Laut der neuesten Studie von Penn State, UCSC und Amazon mit dem Titel „Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents“ fanden Forschende, dass die Fähigkeit von KI-Agenten, Ausrüstung zu aktualisieren, über verschiedene Modelle hinweg ein „Abflachungs“-Muster zeigt. Cross-Testing ergab, dass sich die Leistungsgewinne durch Ausrüstungsaktualisierungen verschiedener Modelle nur um 3,1% unterscheiden; selbst das Modell Qwen3.5-9B im 9B-Scale liefert Updates, die strukturell mit dem Flaggschiff Claude Opus 4.6 vergleichbar sind.
Allerdings zeigen die Trends, inwiefern Agenten von aktualisierter Ausrüstung profitieren können, nichtmonotone Verläufe. Schwächere Modelle wie Qwen3-32B haben zwei entscheidende Ausfallmodi: „equipment activation failure“ mit nur 25,1% Skill-Loading-Rate gegenüber 96% bei stärkeren Modellen sowie „equipment compliance failure“, bei der die Befolgung von Anweisungen während einer längeren Ausführung deutlich von 0,52 auf 0,13 absinkt. Der KI-Forscher Elvis Sar stellte in seinen Experimenten mit Coding-Agenten ähnliche Muster fest und deutete darauf hin, dass Rechenbudgets eher auf Ausführungs-Agenten als auf Evolutions-Engines ausgerichtet werden sollten.