Nova pesquisa: modelo de 9B atualiza-se a si próprio e desenvolve competências para corresponder ao desempenho do Claude Opus 4,6

De acordo com o artigo mais recente de Penn State, UCSC e Amazon, intitulado "Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents", os investigadores descobriram que as capacidades de atualização de equipamento entre agentes de IA mostram um padrão de “nivelamento” entre diferentes modelos. Os testes cruzados revelaram que as atualizações de equipamento de modelos distintos geram ganhos de desempenho que diferem apenas em 3,1%, com o modelo Qwen3.5-9B, na escala de 9 mil milhões, a produzir atualizações estruturalmente equivalentes às do modelo emblemático Claude Opus 4.6.

No entanto, a capacidade dos agentes de beneficiarem de equipamento atualizado apresenta tendências não monótonas. Modelos fracos como Qwen3-32B enfrentam dois modos de falha críticos: “falha na ativação do equipamento”, com apenas 25,1% de taxas de carregamento de competências face a 96% nos modelos mais fortes, e “falha de conformidade do equipamento”, em que a adesão às instruções cai acentuadamente de 0,52 para 0,13 durante a execução prolongada. O investigador de IA Elvis Sar notou padrões semelhantes nos seus testes com agentes de codificação, sugerindo que os orçamentos computacionais devem priorizar agentes de execução em vez de motores de evolução.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário