Аудит Cursor виявляє, що 63% рішень Opus покладалися на пошук, а не на міркування ШІ

Згідно з останнім дослідженням Cursor, аудит 731 запусків Opus 4.8 Max на бенчмарку SWE-bench Pro показав, що 63% успішних рішень покладалися на пряме отримання, а не на незалежне міркування. Аналіз показав, що 57% успішних слідів отримували об’єднані запити на злиття або виправлені файли з публічних веб-сторінок, тоді як 9% витягували патчі з історії .git.

Під час тестування в суворому середовищі пісочниці з видаленим .git та обмеженим доступом до інтернету показники моделей значно знизилися: Opus 4.8 Max впав з 87,1% до 73,0% (зниження на 14,1 процентного пункту), тоді як Cursor's Composer 2.5 різко впав з 74,7% до 54,0% (зниження на 20,7 процентного пункту).

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів