De acordo com a monitorização do 1M AI News, o SWE-rebench é um teste de referência em tempo real que extrai mensalmente novas tarefas de engenharia de software (issues + PRs) do GitHub, sem que o modelo possa otimizar previamente para o desafio. O mantenedor Ibragim anunciou uma atualização da tabela em 23 de março, eliminando as demonstrações de exemplo e a limitação de 80 passos, além de adicionar tarefas de avaliação auxiliar.
Classificação dos dez melhores:
- Claude Opus 4.6: 65,3%
- GPT-5.2 medium: 64,4%
- GLM-5: 62,8%
- GPT-5.4 medium: 62,8%
- Gemini 3.1 Pro Preview: 62,3%
- DeepSeek-V3.2: 60,9%
- Claude Sonnet 4.6: 60,7%
- Claude Sonnet 4.5: 60,0%
- Qwen3.5-397B-A17B: 59,9%
- Step-3.5-Flash: 59,6%
O modelo de código aberto GLM-5 da Zhipu AI (licença MIT) ocupa o terceiro lugar com 62,8%, sendo o modelo de código aberto mais bem classificado. Quatro modelos chineses estão entre os dez primeiros, além do GLM-5, incluindo o DeepSeek-V3.2 (sexto), Qwen3.5-397B-A17B da Alibaba Tongyi Qianwen (nono) e Step-3.5-Flash (décimo). O responsável global da Z.ai, Li Zixuan, comentou que na última atualização do SWE-rebench, todos os modelos chineses ficaram fora do top dez, sendo criticados por “benchmaxing” (pontuação artificial).
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.