A precisão do GPT-5.4 cai de 100% para 54% no ARC-AGI após repetidas sínteses de memória

De acordo com a Beating, um estudo recente de memória de agentes, conduzido por Dylan Zhang, estudante de doutorado na University of Illinois, descobriu que resumir repetidamente as experiências do modelo pode piorar o desempenho em vez de melhorá-lo. Em tarefas ARC-AGI, o GPT-5.4 alcançou 100% de acurácia em 19 problemas sem memória, mas, após múltiplas rodadas de compressão de memória com base em trajetórias de solução corretas, a acurácia caiu para 54%. Da mesma forma, em tarefas de compras no WebShop, o método de memória AWM registrou 0,64 com 8 trajetórias de especialistas, mas caiu para 0,20 com 128 trajetórias, retornando ao nível de base. A pesquisa sugere que o problema decorre de excesso de sumarização: cada etapa de abstração perde detalhes específicos e mistura regras específicas da tarefa em orientações genéricas, degradando o desempenho do modelo no fim.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários