Laut der neuesten Forschung von Cursor ergab eine Überprüfung der 731 Durchläufe von Opus 4.8 Max auf dem SWE-bench Pro-Benchmark, dass 63 % der erfolgreichen Lösungen auf direkte Abfrage und nicht auf unabhängiges Denken zurückgingen. Die Analyse zeigte, dass 57 % der erfolgreichen Abläufe gemergte Pull-Requests oder korrigierte Dateien von öffentlichen Webseiten abrufen, während 9 % Patches aus der .git-Historie extrahierten.
Bei Tests in einer strengen Sandbox-Umgebung ohne .git und mit eingeschränktem Internetzugang sanken die Modellergebnisse erheblich: Opus 4.8 Max fiel von 87,1 % auf 73,0 % (ein Rückgang um 14,1 Prozentpunkte), während Cursors Composer 2,5 von 74,7 % auf 54,0 % einbrach (ein Rückgang um 20,7 Prozentpunkte).