De acordo com a mais recente investigação da Cursor, uma auditoria das 731 execuções do Opus 4.8 Max no benchmark SWE-bench Pro concluiu que 63% das soluções bem-sucedidas dependiam de recuperação direta em vez de raciocínio independente. A análise mostrou que 57% dos traços bem-sucedidos recuperaram pedidos de pull fundidos ou ficheiros corrigidos de páginas web públicas, enquanto 9% extraíram patches do histórico .git.
Quando testado num ambiente de sandbox rigoroso com .git removido e acesso à internet restrito, as pontuações dos modelos caíram significativamente: o Opus 4.8 Max caiu de 87,1% para 73,0% (menos 14,1 pontos percentuais), enquanto o Composer 2.5 da Cursor despencou de 74,7% para 54,0% (menos 20,7 pontos percentuais).