Según Beating (una cuenta de monitoreo), el modelo de código abierto GLM-5.2 de Zhipu AI logró la mayor tasa de éxito entre los modelos de código abierto en el benchmark DeepSWE para tareas complejas de ingeniería de software, con un 44% de éxito en un solo intento a la máxima intensidad de razonamiento. Esto supera a Kimi K2.7 Code en 13 puntos porcentuales: 31%.
A 3,92 USD por tarea, GLM-5.2 supera el rendimiento de varios modelos cerrados convencionales bajo configuraciones específicas de razonamiento, incluido Claude Sonnet 4.6 [high] al 30%, Gemini 3.5 Flash [medium] al 37% y Claude Opus 4.8 [low] al 41%.