Zhipu GLM-5.2 lidera el benchmark de código abierto DeepSWE con una tasa de éxito del 44%, superando a los modelos cerrados convencionales

Según Beating (una cuenta de monitoreo), el modelo de código abierto GLM-5.2 de Zhipu AI logró la mayor tasa de éxito entre los modelos de código abierto en el benchmark DeepSWE para tareas complejas de ingeniería de software, con un 44% de éxito en un solo intento a la máxima intensidad de razonamiento. Esto supera a Kimi K2.7 Code en 13 puntos porcentuales: 31%.

A 3,92 USD por tarea, GLM-5.2 supera el rendimiento de varios modelos cerrados convencionales bajo configuraciones específicas de razonamiento, incluido Claude Sonnet 4.6 [high] al 30%, Gemini 3.5 Flash [medium] al 37% y Claude Opus 4.8 [low] al 41%.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios