De acordo com o artigo mais recente de Penn State, UCSC e Amazon, intitulado "Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents", os investigadores descobriram que as capacidades de atualização de equipamento entre agentes de IA mostram um padrão de “nivelamento” entre diferentes modelos. Os testes cruzados revelaram que as atualizações de equipamento de modelos distintos geram ganhos de desempenho que diferem apenas em 3,1%, com o modelo Qwen3.5-9B, na escala de 9 mil milhões, a produzir atualizações estruturalmente equivalentes às do modelo emblemático Claude Opus 4.6.
No entanto, a capacidade dos agentes de beneficiarem de equipamento atualizado apresenta tendências não monótonas. Modelos fracos como Qwen3-32B enfrentam dois modos de falha críticos: “falha na ativação do equipamento”, com apenas 25,1% de taxas de carregamento de competências face a 96% nos modelos mais fortes, e “falha de conformidade do equipamento”, em que a adesão às instruções cai acentuadamente de 0,52 para 0,13 durante a execução prolongada. O investigador de IA Elvis Sar notou padrões semelhantes nos seus testes com agentes de codificação, sugerindo que os orçamentos computacionais devem priorizar agentes de execução em vez de motores de evolução.