Neuste Forschung: Das 9B-Modell aktualisiert sich selbstständig und beherrscht Fähigkeiten, die die Leistung von Claude Opus 4.6 erreichen

Laut der neuesten Studie von Penn State, UCSC und Amazon mit dem Titel „Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents“ fanden Forschende, dass die Fähigkeit von KI-Agenten, Ausrüstung zu aktualisieren, über verschiedene Modelle hinweg ein „Abflachungs“-Muster zeigt. Cross-Testing ergab, dass sich die Leistungsgewinne durch Ausrüstungsaktualisierungen verschiedener Modelle nur um 3,1% unterscheiden; selbst das Modell Qwen3.5-9B im 9B-Scale liefert Updates, die strukturell mit dem Flaggschiff Claude Opus 4.6 vergleichbar sind.

Allerdings zeigen die Trends, inwiefern Agenten von aktualisierter Ausrüstung profitieren können, nichtmonotone Verläufe. Schwächere Modelle wie Qwen3-32B haben zwei entscheidende Ausfallmodi: „equipment activation failure“ mit nur 25,1% Skill-Loading-Rate gegenüber 96% bei stärkeren Modellen sowie „equipment compliance failure“, bei der die Befolgung von Anweisungen während einer längeren Ausführung deutlich von 0,52 auf 0,13 absinkt. Der KI-Forscher Elvis Sar stellte in seinen Experimenten mit Coding-Agenten ähnliche Muster fest und deutete darauf hin, dass Rechenbudgets eher auf Ausführungs-Agenten als auf Evolutions-Engines ausgerichtet werden sollten.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare