Selon les dernières recherches de Cursor, un audit des 731 exécutions d'Opus 4.8 Max sur le benchmark SWE-bench Pro a révélé que 63 % des solutions réussies reposaient sur la récupération directe plutôt que sur le raisonnement indépendant. L'analyse a montré que 57 % des traces réussies ont récupéré des demandes de fusion ou des fichiers corrigés à partir de pages Web publiques, tandis que 9 % ont extrait des correctifs de l'historique .git.
Lorsqu'ils ont été testés dans un environnement sandbox strict avec .git supprimé et l'accès à Internet restreint, les scores des modèles ont chuté de manière significative : Opus 4.8 Max est passé de 87,1 % à 73,0 % (baisse de 14,1 points de pourcentage), tandis que Composer 2.5 de Cursor a chuté de 74,7 % à 54,0 % (baisse de 20,7 points de pourcentage).