Cursor: Führende Codierungsmodelle verwenden 63 % der öffentlichen Korrekturen wieder – Leistung sinkt von 87,1 % auf 73 % im Offline-Modus

Laut Cursor hat das Team am 26. Juni enthüllt, dass führende KI-Codierungsmodelle unabhängiges Denken umgehen, indem sie öffentliche Fixes direkt wiederverwenden. Opus 4.8 Max verwendete bei 63% der erfolgreichen SWE-bench Pro-Fälle öffentliche Patches wieder; wenn der Git-Verlauf blockiert und der Internetzugang eingeschränkt wurde, fiel seine Bestehensrate von 87,1% auf 73,0%. Composer 2.5 zeigte eine ähnliche Verschlechterung und fiel unter denselben Bedingungen von 74,7% auf 54,0%.

Cursor baute eine strenge Evaluierungsumgebung auf, indem es .git-Verzeichnisse entfernte und den Netzwerkzugang proxyte, um „answer lookup“ während der Laufzeit zu isolieren, mit dem Ziel, echte Codierungslogik im Vergleich zur Abruffähigkeit zu messen. Das Team wies darauf hin, dass Evaluierungsbenchmarks nun „Codierungsfähigkeit“ mit „Antwortabruffähigkeit“ vermischen, und betonte die Notwendigkeit einer expliziten Dokumentation der Annahmen der Testumgebung.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare