Pesquisa mais recente: o modelo de 9B atualiza suas próprias habilidades para corresponder ao desempenho do Claude Opus 4,6

De acordo com o artigo mais recente da Penn State, UCSC e Amazon, intitulado “Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents”, os pesquisadores descobriram que as capacidades de atualização de equipamentos entre agentes de IA apresentam um padrão de “achatamento” em diferentes modelos. Os testes cruzados revelaram que as atualizações de equipamentos de modelos diferentes geram ganhos de desempenho que variam apenas 3,1%, e até o modelo Qwen3.5-9B, na escala de 9B, produz atualizações estruturalmente equivalentes ao carro-chefe Claude Opus 4.6.

No entanto, a capacidade dos agentes de se beneficiar de equipamentos atualizados mostra tendências não monótonas. Modelos mais fracos como o Qwen3-32B enfrentam dois modos críticos de falha: “equipment activation failure”, com apenas 25,1% de taxas de carregamento de habilidades versus 96% para modelos mais fortes, e “equipment compliance failure”, em que a aderência às instruções cai drasticamente de 0,52 para 0,13 durante execuções mais longas. O pesquisador de IA Elvis Sar observou padrões semelhantes em seus experimentos com agentes de programação, sugerindo que os orçamentos computacionais devem priorizar agentes de execução em vez de motores de evolução.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários