Anthropic Виявляє Три Зміни На Рівні Продукту, Що Стоять За Падінням Якості Claude Code, А Не Проблему Моделі

Повідомлення Gate News, 23 квітня — інженерна команда Anthropic підтвердила, що погіршення якості Claude Code, про яке повідомляли користувачі протягом минулого місяця, було спричинене трьома незалежними змінами на рівні продукту, а не проблемами API чи базової моделі. Три проблеми були виправлені відповідно 7 квітня, 10 квітня та 20 квітня, а нинішня фінальна версія має v2.1.116.

Перша зміна сталася 4 березня, коли команда зменшила рівень зусиль за замовчуванням для міркувань Claude Code з “high” до “medium”, щоб усунути епізодичні надмірні піки затримок у Opus 4.6 за високої інтенсивності міркувань. Після численних скарг користувачів на зниження продуктивності команда повернула цю зміну 7 квітня. Нині поточне значення за замовчуванням — “xhigh” для Opus 4.7 і “high” для інших моделей.

Друга проблема була багом, внесеним 26 березня. Система була спроєктована очищати старі записи міркувань після того, як бездіяльність у розмові перевищувала одну годину, щоб зменшити витрати на відновлення сесії. Однак недолік у реалізації спричинив те, що очищення виконувалося повторно на кожному наступному ході, а не один раз, через що модель поступово втрачала попередній контекст міркувань. Це проявлялося як зростаюча забудькуватість, повторювані операції та ненормальні виклики інструментів. Баг також спричинив збіги кешу на кожен запит, пришвидшуючи витрачання квот користувачів. Два не пов’язані з цим внутрішні експерименти приховали умови відтворення, розтягнувши процес дебагу більш ніж на тиждень. Після виправлення 10 квітня команда переглянула проблемний код, використовуючи Opus 4.7, і виявила, що Opus 4.7 може ідентифікувати цей баг, тоді як Opus 4.6 — ні.

Третя зміна була запущена 16 квітня разом із Opus 4.7. Команда додала інструкції до системного промпту, щоб зменшити надмірний повторюваний вивід. Внутрішнє тестування протягом кількох тижнів показало відсутність регресії, але після запуску взаємодія з іншими промптами погіршила якість кодування. Розширене оцінювання виявило 3% падіння продуктивності в обох випадках — Opus 4.6 і 4.7 — що призвело до відкату 20 квітня.

Ці три зміни вплинули на різні групи користувачів у різний час, а їхня сукупна дія спричинила поширене та непослідовне падіння якості, ускладнивши діагностику. У Anthropic заявили, що тепер для використання того самого публічного номера версії збірки, що й у користувачів, знадобиться задіяти більше внутрішніх співробітників, виконувати повні комплекти оцінювання моделей для кожної модифікації системного промпту та впроваджувати етапні періоди розгортання. Як компенсацію, Anthropic скинув квоти використання для всіх передплатників.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Meta Platforms планує скоротити штат на 10% 20 травня, зачепивши приблизно 8 000 посад

Повідомлення Gate News, 24 квітня — Meta Platforms планує скоротити штат приблизно на 10%, що торкнеться приблизно 8 000 посад, 20 травня. Звільнення мають на меті підвищити операційну ефективність, одночасно збільшуючи інвестиції в штучний інтелект. Запланована реструктуризація відображає

GateNews38хв. тому

Уряд Трампа оприлюднив план боротьби з AI-переробкою, звинувачуючи китайські компанії в систематичному викраденні можливостей моделей

Офіційний помічник президента з питань технологічної політики Білого дому (OSTP) Майкл Дж. Кратсіос (Michael J. Kratsios) 23 квітня зробив офіційну заяву, у якій зазначив, що адміністрація Трампа має інформацію, яка свідчить: іноземні суб’єкти (переважно з Китаю) навмисно націлені на великі американські компанії в галузі штучного інтелекту, системно вилучаючи можливості американських AI-моделей через «десятки тисяч» проксі-акаунтів та системи, що використовують технології джейлбрейку, і паралельно оприлюднюють чотири заходи реагування.

MarketWhisper1год тому

DeepSeek запустила V4 відкриту прев’ю-версію, технічний рейтинг 3206 перевершив GPT-5.4

DeepSeek 24 квітня офіційно випустив серію прев’ю-версій V4, відкривши її як open source за ліцензією MIT; ваги моделей уже синхронно завантажено на Hugging Face та ModelScope. Згідно з технічним звітом DeepSeek V4, V4-Pro-Max (найпотужніший режим інференсу) на бенчмарку Codeforces набрав 3206 балів, перевершивши GPT-5.4.

MarketWhisper1год тому

Cambricon завершує адаптацію Day 0 для DeepSeek-V4, позначаючи важливу віху для екосистеми AI-чипів Китаю

Повідомлення Gate News, 24 квітня — сьогодні Cambricon оголосила, що завершила адаптацію Day 0 для DeepSeek-V4, останньої великої мовної моделі від DeepSeek, використовуючи власну програмну екосистему NeuWare та фреймворк vLLM. Код адаптації було відкрито одночасно, що

GateNews1год тому

Tencent випустила Hy3 у прев’ю-версії з відкритим кодом, тест продуктивності коду порівняно з попередньою версією покращено на 40%

Tencent 4 травня 23 числа офіційно відкрив вихідний код попередньої версії великої мовної моделі Hy3 на платформах GitHub, Hugging Face та ModelScope, а також паралельно надає платні API-послуги через Tencent Cloud. За повідомленням Decrypt від 24 квітня, попередня версія Hy3 розпочала навчання наприкінці січня, і на момент дати публікації минуло менше ніж три місяці.

MarketWhisper1год тому

Інвестиції портфеля FTX на суму 158 трильйонів вонів, якщо б вона не збанкрутувала

FTX, централізована криптовалютна біржа, яка подала на захист від банкрутства згідно з Chapter 11 у листопаді 2022 року через нестачу ліквідності та відплив капіталу, мала б утримувати інвестиції вартістю приблизно 158.796 трлн вонів, якби вона не збанкрутувала, згідно з аналізом, на який посилається Парк

CryptoFrontier1год тому
Прокоментувати
0/400
Немає коментарів