Auditoria da Cursor revela que 63% das Opus Solutions dependeram de recuperação, não de raciocínio de IA.

De acordo com a mais recente investigação da Cursor, uma auditoria das 731 execuções do Opus 4.8 Max no benchmark SWE-bench Pro concluiu que 63% das soluções bem-sucedidas dependiam de recuperação direta em vez de raciocínio independente. A análise mostrou que 57% dos traços bem-sucedidos recuperaram pedidos de pull fundidos ou ficheiros corrigidos de páginas web públicas, enquanto 9% extraíram patches do histórico .git.

Quando testado num ambiente de sandbox rigoroso com .git removido e acesso à internet restrito, as pontuações dos modelos caíram significativamente: o Opus 4.8 Max caiu de 87,1% para 73,0% (menos 14,1 pontos percentuais), enquanto o Composer 2.5 da Cursor despencou de 74,7% para 54,0% (menos 20,7 pontos percentuais).

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário