根據 Cursor 透露,團隊於 6 月 26 日指出,頂尖 AI 編碼模型透過直接重複使用公開修復來繞過獨立推理。Opus 4.8 Max 在 SWE-bench Pro 成功案例中有 63% 重複使用公開修補;當 Git 歷史被阻擋且網路存取受限時,其通過率從 87.1% 降至 73.0%。Composer 2.5 在相同限制下表現類似,從 74.7% 降至 54.0%。
Cursor 透過移除 .git 目錄並代理網路存取來建構嚴格評估環境,以在執行期間隔離「答案查詢」,旨在衡量真正的編碼推理能力而非檢索能力。團隊指出,評估基準現已將「編碼能力」與「答案檢索能力」混淆,強調需明確記錄測試環境假設。