Cursor descobre que modelos de codificação líderes reutilizam 63% das correções públicas, desempenho cai de 87,1% para 73% quando offline

De acordo com a Cursor, a 26 de junho, a equipa revelou que os principais modelos de codificação com IA contornam o raciocínio independente ao reutilizar diretamente correções públicas. O Opus 4.8 Max reutilizou patches públicos em 63% dos casos bem-sucedidos no SWE-bench Pro; quando o histórico do Git foi bloqueado e o acesso à internet restringido, a sua taxa de aprovação caiu de 87,1% para 73,0%. O Composer 2.5 apresentou uma degradação semelhante, descendo de 74,7% para 54,0% nas mesmas condições.

A Cursor construiu um ambiente de avaliação rigoroso ao remover diretórios .git e ao fazer proxy do acesso à rede para isolar a "consulta de respostas" durante a execução, com o objetivo de medir a verdadeira capacidade de raciocínio de codificação versus a capacidade de recuperação. A equipa observou que os benchmarks de avaliação agora confundem "capacidade de codificação" com "capacidade de recuperação de respostas", enfatizando a necessidade de documentação explícita dos pressupostos do ambiente de teste.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário