Artificial Analysis a publié aujourd’hui un nouvel indice d’agent de codage pour évaluer les performances des modèles d’IA lorsqu’ils sont combinés à des frameworks d’agents sur des benchmarks clés, dont SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 et SWE-Atlas-QnA. Zhipu GLM-5.1 arrive en première position parmi les modèles open source dans cette évaluation, démontrant des performances de premier plan dans des scénarios d’agents de codage en conditions réelles.
Related News
OpenAI lance le programme de cybersécurité Daybreak, avec une architecture en trois niveaux de GPT-5,5 face à Anthropic Mythos
Guide complet Gemini 2026 : toute la gamme de produits IA de Google, les offres d’abonnement et la politique de confidentialité, en un coup d’œil
Stanford lance Agent Island : des modèles d’IA trahissent la stratégie et éliminent leurs adversaires dans un jeu de style Survivor via des votes croisés