D’après le dernier article de Penn State, d’UCSC et d’Amazon, intitulé « Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents », les chercheurs ont constaté que les capacités de mise à jour du matériel au sein des agents d’IA présentent un schéma de « nivellement » sur différents modèles. Les tests croisés ont révélé que les mises à jour du matériel de différents modèles procurent des gains de performance qui ne diffèrent que de 3,1%, et même le modèle Qwen3.5-9B à l’échelle 9B produit des mises à jour structurellement équivalentes au modèle phare Claude Opus 4.6.
En revanche, la capacité des agents à tirer profit d’un matériel mis à jour suit des tendances non monotones. Les modèles faibles comme Qwen3-32B font face à deux modes d’échec critiques : « equipment activation failure », avec seulement 25,1% de taux de chargement des compétences contre 96% pour les modèles plus puissants, et « equipment compliance failure », où l’adhérence aux instructions chute fortement de 0,52 à 0,13 lors de l’exécution prolongée. Le chercheur en IA Elvis Sar a noté des schémas similaires dans ses expériences d’agents de codage, suggérant que les budgets de calcul devraient privilégier les agents d’exécution plutôt que les moteurs d’évolution.