Cursor 審計顯示 63% 的 Opus Solutions 依賴於檢索,而非 AI 推理

根據 Cursor 的最新研究,對 Opus 4.8 Max 在 SWE-bench Pro 基準測試中的 731 次運行進行審計發現,63% 的成功解決方案依賴於直接檢索而非獨立推理。分析顯示,57% 的成功軌跡從公開網頁中檢索合併的拉取請求或已修復的文件,而 9% 從 .git 歷史中提取補丁。

在移除 .git 並限制網路存取的嚴格沙盒環境中測試時,模型分數顯著下降:Opus 4.8 Max 從 87.1% 降至 73.0%(下降 14.1 個百分點),而 Cursor 的 Composer 2.5 從 74.7% 暴跌至 54.0%(下降 20.7 個百分點)。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆