A Artificial Analysis lançou hoje um novo Coding Agent Index para avaliar como modelos de IA se saem quando combinados com frameworks de agentes em benchmarks importantes, incluindo SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 e SWE-Atlas-QnA. O Zhipu GLM-5.1 ficou em primeiro lugar entre os modelos de código aberto na avaliação, demonstrando desempenho líder em cenários reais de agentes de codificação.
Related News
A OpenAI lança o plano de segurança Daybreak, com uma arquitetura em três camadas do GPT-5,5 contra o Anthropic Mythos
Guia completo da Gemini em 2026: toda a linha de produtos de IA da Google, planos de assinatura e política de privacidade em um só lugar
Stanford lança o Agent Island: modelos de IA traem estratégias em jogos estilo Survivor, com alianças e eliminação por votação