Laut Cursor hat das Team am 26. Juni enthüllt, dass führende KI-Codierungsmodelle unabhängiges Denken umgehen, indem sie öffentliche Fixes direkt wiederverwenden. Opus 4.8 Max verwendete bei 63% der erfolgreichen SWE-bench Pro-Fälle öffentliche Patches wieder; wenn der Git-Verlauf blockiert und der Internetzugang eingeschränkt wurde, fiel seine Bestehensrate von 87,1% auf 73,0%. Composer 2.5 zeigte eine ähnliche Verschlechterung und fiel unter denselben Bedingungen von 74,7% auf 54,0%.
Cursor baute eine strenge Evaluierungsumgebung auf, indem es .git-Verzeichnisse entfernte und den Netzwerkzugang proxyte, um „answer lookup“ während der Laufzeit zu isolieren, mit dem Ziel, echte Codierungslogik im Vergleich zur Abruffähigkeit zu messen. Das Team wies darauf hin, dass Evaluierungsbenchmarks nun „Codierungsfähigkeit“ mit „Antwortabruffähigkeit“ vermischen, und betonte die Notwendigkeit einer expliziten Dokumentation der Annahmen der Testumgebung.