De acordo com o ARC Prize, o modelo GLM-5.2 da Zhipu obteve recentemente verificação oficial no benchmark ARC-AGI. No ARC-AGI-2, o GLM-5.2 atingiu 22,8% de precisão com um custo médio de US$ 0,25 por tarefa, enquanto no benchmark ARC-AGI-1, mais fácil, alcançou 77,0% de precisão a US$ 0,19 por execução.
O desempenho geral do GLM-5.2 é comparável ao do GPT-5.4 e GPT-5.5 da OpenAI com modo de esforço de raciocínio baixo. O ARC-AGI foi projetado para avaliar capacidades de raciocínio em nível de AGI por meio de tarefas abstratas de reconhecimento de padrões nunca vistas durante o treinamento.