Dernière recherche : le modèle 9B s’auto-met à jour pour acquérir des compétences correspondant aux performances de Claude Opus 4.6

D’après le dernier article de Penn State, d’UCSC et d’Amazon, intitulé « Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents », les chercheurs ont constaté que les capacités de mise à jour du matériel au sein des agents d’IA présentent un schéma de « nivellement » sur différents modèles. Les tests croisés ont révélé que les mises à jour du matériel de différents modèles procurent des gains de performance qui ne diffèrent que de 3,1%, et même le modèle Qwen3.5-9B à l’échelle 9B produit des mises à jour structurellement équivalentes au modèle phare Claude Opus 4.6.

En revanche, la capacité des agents à tirer profit d’un matériel mis à jour suit des tendances non monotones. Les modèles faibles comme Qwen3-32B font face à deux modes d’échec critiques : « equipment activation failure », avec seulement 25,1% de taux de chargement des compétences contre 96% pour les modèles plus puissants, et « equipment compliance failure », où l’adhérence aux instructions chute fortement de 0,52 à 0,13 lors de l’exécution prolongée. Le chercheur en IA Elvis Sar a noté des schémas similaires dans ses expériences d’agents de codage, suggérant que les budgets de calcul devraient privilégier les agents d’exécution plutôt que les moteurs d’évolution.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire