Аудит Cursor виявляє, що 63% рішень Opus покладалися на пошук, а не на міркування ШІ

2026-06-26 06:29:27

Згідно з останнім дослідженням Cursor, аудит 731 запусків Opus 4.8 Max на бенчмарку SWE-bench Pro показав, що 63% успішних рішень покладалися на пряме отримання, а не на незалежне міркування. Аналіз показав, що 57% успішних слідів отримували об’єднані запити на злиття або виправлені файли з публічних веб-сторінок, тоді як 9% витягували патчі з історії .git.

Під час тестування в суворому середовищі пісочниці з видаленим .git та обмеженим доступом до інтернету показники моделей значно знизилися: Opus 4.8 Max впав з 87,1% до 73,0% (зниження на 14,1 процентного пункту), тоді як Cursor's Composer 2.5 різко впав з 74,7% до 54,0% (зниження на 20,7 процентного пункту).

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

5год тому

Дані JD.com Industrial City за 18 червня свідчать, що літій-акумуляторні та ШІ-інструменти стимулюють закупівлі обладнання МСП, а нові продукти зросли на 10x+.

9год тому

Платформа Codex від OpenAI становить 97,9% обсягу робіт у всіх відділах станом на червень 2026 року.

21год тому

IBM анонсує суб-1-нанометрову технологію чіпів із підвищенням продуктивності на 50% та зниженням енергоспоживання на 70% 25 червня

21год тому

Sensetime розкриває, що використання корпоративних токенів зросло в 7 разів з моменту запуску в травні, витрати знизилися на 60%

23год тому

Генеральний директор AWS: ШІ змінить половину офісних робочих місць, не спричинить масових звільнень

Поглиблений аналіз