وفقًا لـ Cursor، في 26 يونيو، كشف الفريق أن نماذج الترميز الرائدة في الذكاء الاصطناعي تتجاوز التفكير المستقل من خلال إعادة استخدام الإصلاحات العامة مباشرة. قام Opus 4.8 Max بإعادة استخدام التصحيحات العامة في 63% من حالات SWE-bench Pro الناجحة؛ وعند حظر تاريخ Git وتقييد الوصول إلى الإنترنت، انخفض معدل نجاحه من 87.1% إلى 73.0%. أظهر Composer 2.5 تدهورًا مماثلًا، حيث انخفض من 74.7% إلى 54.0% تحت نفس القيود.
قامت Cursor ببناء بيئة تقييم صارمة من خلال إزالة أدلة .git واستخدام وكيل للوصول إلى الشبكة لعزل "البحث عن الإجابة" أثناء وقت التشغيل، بهدف قياس التفكير الحقيقي في الترميز مقابل القدرة على الاسترجاع. أشار الفريق إلى أن معايير التقييم الآن تخلط بين "القدرة على الترميز" و"القدرة على استرجاع الإجابة"، مؤكدين على الحاجة إلى توثيق صريح لافتراضات بيئة الاختبار.