De acordo com a Cursor, em 26 de junho, a equipe revelou que os principais modelos de codificação de IA contornam o raciocínio independente ao reutilizar diretamente correções públicas. O Opus 4.8 Max reutilizou patches públicos em 63% dos casos bem-sucedidos do SWE-bench Pro; quando o histórico do Git foi bloqueado e o acesso à internet restrito, sua taxa de aprovação caiu de 87,1% para 73,0%. O Composer 2.5 mostrou degradação semelhante, caindo de 74,7% para 54,0% sob as mesmas restrições.
A Cursor construiu um ambiente de avaliação rigoroso removendo diretórios .git e fazendo proxy do acesso à rede para isolar a "consulta de resposta" durante a execução, com o objetivo de medir o raciocínio de codificação real versus a capacidade de recuperação. A equipe observou que os benchmarks de avaliação agora confundem "capacidade de codificação" com "capacidade de recuperação de respostas", enfatizando a necessidade de documentação explícita das suposições do ambiente de teste.