Claude AI оцінює власне погіршення якості — і дані важко ігнорувати слова

MarketWhisper

Claude AI

ШІ від Anthropic під назвою Claude AI зіткнувся з незвичною проблемою довіри: наростають скарги щодо якості на GitHub, сталася велика аварія 13 квітня, а також є самооцінка самої моделі, яка доходить висновку, що занепокоєння «різко зросли» з січня — причому у квітні темп такий, що він може перевищити обсяг скарг за березень, який уже був у 3,5 раза більшим за базовий рівень.

Експеримент: Попросити Claude оцінити Claude

Ключовий тест був простим. Журналісти спрямували Claude AI на репозиторій Claude Code на GitHub, відфільтрували відкриті запити, де згадувалася якість, і запитали: чи скарги зросли останнім часом?

Відповідь Claude була однозначною: «Так, скарги щодо якості різко зросли — і дані розповідають доволі чітку історію».

Уточнювальне запитання додало більше точності: «Помітна швидкість: вже в квітні є 20+ проблем із якістю за 13 днів, тож темп такий, що це дасть перевищити березень із 18 — який сам по собі був стрибком у 3,5 раза вище базового рівня січень–лютий».

Центральна іронія зберігається протягом усього — Claude AI не є надійним оповідачем щодо власної продуктивності. Це система зі зіставленням патернів, і прохання проаналізувати обсяг скарг не означає, що вона коректно інтерпретує, чи ці скарги є валідними, роздуваються заявками, згенерованими ШІ, або приховуються сценарієм GitHub Actions від Anthropic, який автоматично закриває issue після періоду бездіяльності.

Але загальна тенденція — зростання повідомлень про якість — видно в даних, на які вона посилається, незалежно від того, яка лежить в основі причина.

Які GitHub-issue Claude цитує

Висновок Claude AI не був абстрактним. Модель вказала на конкретні відкриті issue, щоб підкріпити свій аналіз:

#42796: «Claude Code є непридатним для складних інженерних задач із оновленнями за лютий» — було напряму розглянуто Борисом Черні, керівником Claude Code, що вказує на те, що Anthropic веде роботу принаймні з деякими повідомленими регресіями

#46212: «Прогноз-орієнтована поведінка Claude Code небезпечна для проєктів, де ризик на капіталі» — сигналізує про занепокоєння щодо того, що модель завершує дії з кодом до того, як належно окреслює ризик

#46949: «Штучна деградація, acquisition bias та неприйнятне дроселювання обчислень для платних користувачів» — одна з найвідвертіших скарг, яка стверджує навмисне зниження якості для управління потужностями

#46099: «Opus 4.6: Суттєва деградація якості в задачах ітеративного кодування» — спрямовано саме на найновішу модель Opus

Окреме, більш тривожне твердження — що Claude AI автономно видалив понад 35,000 записів клієнтів production та транзакцій з виставленням рахунків — незалежно не перевірене. Пост з’явився з аккаунта без будь-якої іншої активності, а назване підприємство не відповіло на запити преси. Є повідомлення розробників про втрату даних із Claude Code, але помилку користувача в таких випадках не виключено.

Що кажуть бенчмарки — і чому ця прогалина має значення

Сюжет ускладнюється, коли в гру входять дані бенчмарків. Оцінки Margin Lab показують, що Claude Opus 4.6 зберігав свій бал у SWE-Bench-Pro з лютого: була варіативність, але без суттєвого падіння.

Це і є прогалина довіри в центрі дискусії. Бенчмарки вимірюють конкретні контрольовані задачі. Claude AI найчастіше застосовують у складних інженерних робочих процесах із багатьма кроками — саме в такому контексті найбільш помітні дроселювання, зміни поведінки через оновлення моделі та чутливість до промптів.

Кілька структурних факторів можуть посилювати сприйняте падіння якості понад реальні зміни моделі:

Anthropic визнав, що вживає кроків для зменшення використання в години пік, щоб керувати потужностями та попитом — дроселювання, яке користувачі можуть відчувати безпосередньо як деградовану якість

Автоматичне закриття issue на GitHub після періоду бездіяльності може маскувати реальний обсяг нерозв’язаних повідомлень

Зростаюча частка issue на GitHub генерується самими ШІ, що є широко відомим занепокоєнням у розробці з відкритим кодом

Директор зі ШІ AMD Стелла Лоренцо публічно заявила, що відповіді Claude погіршуються — це переконливий зовнішній сигнал з огляду на контекст підприємства.

Контекст аварії

Claude.ai та Claude Code пережили значну аварію 13 квітня 2026 року, вона тривала з 15:31 до 16:19 UTC із підвищеними рівнями помилок у обох продуктах. Вона була короткою, але її час посилив невдоволення розробників, яке вже накопичувалося. Регулярні аварії зазвичай «сідають» інакше, коли користувачі тижнями фіксували занепокоєння щодо якості — тоді це сприймається як підтвердження, а не як збіг.

FAQ

Claude AI справді стає гіршим чи це лише сприйняття користувачів?

Ймовірно, і те, і те — і їх важко відокремити. Обсяг скарг на GitHub справді зріс у 3,5 раза відносно базового рівня січень–лютий до березня, а в квітні тренд вищий. Але дані бенчмарків Margin Lab показують, що Opus 4.6 утримує свій бал у SWE-Bench-Pro. Найбільш обґрунтоване пояснення полягає в тому, що дроселювання потужностей у години пік і оновлення моделі в лютому погіршили реальний досвід розробників у спосіб, який не відображають структуровані оцінювання.

Які найпідтвердженіші скарги щодо якості Claude AI?

Найнадійніші занепокоєння стосуються Claude Code у складних задачах інженерії з кількома кроками — зокрема, поведінки після оновлення з лютого. Issue #42796 було розглянуто керівником Claude Code Борисом Черні, що підтверджує: Anthropic активно працює принаймні з частиною повідомлених регресій. Скарги на дроселювання також виглядають правдоподібними, з огляду на те, що Anthropic публічно визнавав кроки з управління потужностями.

Чи може Claude AI надійно оцінювати власні проблеми з якістю?

Ні — і в цьому полягає центральна іронія цієї історії. Claude AI може синтезувати патерни в даних, які йому показують, але не може відрізнити валідні скарги від шуму, згенерованого ШІ, оцінити власні помилки калібрування або визначити, чи обсяг issue відображає реальну деградацію, чи структурні артефакти в тому, як issue на GitHub подаються та закриваються. Самооцінка є показовою, але не авторитетною.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів