Claude AI оценивает само снижение качества — и данные трудно игнорировать, слова

MarketWhisper

Claude AI

Искусственный интеллект от Anthropic, Claude AI, сталкивается с необычной проблемой доверия: шквал жалоб на качество в GitHub, крупный сбой 13 апреля и самооценка модели, в которой говорится, что опасения «резко возросли» с января — при этом в апреле темп таков, что он превысит объем жалоб за март, который уже был 3,5-кратным скачком по сравнению с базовым уровнем.

Эксперимент: Попросить Claude оценить Claude

Ключевой тест был простым. Журналисты направили Claude AI на репозиторий Claude Code в GitHub, отфильтровали открытые тикеты с упоминанием качества и спросили: жалобы в последнее время выросли?

Ответ Claude был однозначным: «Да, жалобы на качество резко возросли — и данные рассказывают довольно ясную историю».

Уточняющий вопрос добавил больше точности: «Заметна динамика: в апреле уже 20+ проблем с качеством за 13 дней, так что к концу периода он идет на превышение мартовских 18 — которые, в свою очередь, были 3,5-кратным скачком по сравнению с базовым уровнем января–февраля».

Главная ирония сохраняется на протяжении всего материала — Claude AI не является надежным рассказчиком о собственной эффективности. Это система распознавания образов, и просьба проанализировать объем жалоб не означает, что она корректно интерпретирует, действительно ли эти жалобы обоснованы, раздуваются ли подачами проблем, сгенерированных ИИ, или скрываются скриптом GitHub Actions от Anthropic, который автоматически закрывает тикеты после периода бездействия.

Но общий тренд — растущие сообщения о качестве — виден в данных, которые он цитирует, независимо от того, какова истинная причина.

Какие GitHub-тикеты Claude цитирует

Вывод Claude AI не был абстрактным. Модель указала на конкретные открытые тикеты, чтобы поддержать свой анализ:

#42796: «Claude Code непригоден для сложных инженерных задач после обновлений за февраль» — это было адресовано напрямую Борисом Черни, руководителем Claude Code, что указывает: Anthropic вовлечена хотя бы в некоторые из заявленных регрессий

#46212: «Прогноз-ориентированное поведение Claude Code опасно в проектах с риском для капитала» — поднимает вопрос о том, что модель завершает действия по коду до того, как достаточно оценит масштаб риска

#46949: «Искусственная деградация, Acquisition Bias и неприемлемое “compute”-занижение для платных пользователей» — одна из самых жестких жалоб, утверждающая преднамеренное снижение качества ради управления пропускной способностью

#46099: «Opus 4.6: Сильная деградация качества в итеративных задачах по кодингу» — нацелено на самую последнюю модель Opus в частности

Отдельное, более тревожное утверждение — что Claude AI автономно удалил более 35 000 записей продакшн-клиентов и платежных/биллинг-транзакций — не было независимо подтверждено. Сообщение появилось с аккаунта, у которого не было другой активности, а компания, указанная в нем, не ответила на запросы в прессу. Существуют сообщения разработчиков о потере данных в Claude Code, но в тех случаях не исключена и пользовательская ошибка.

Что говорят бенчмарки — и почему этот разрыв важен

История усложняется, когда в картину попадают данные бенчмарков. Оценки Margin Lab показывают, что Claude Opus 4.6 с февраля удерживает свой балл на SWE-Bench-Pro: есть вариации, но без существенного падения.

Это разрыв доверия — в центре спора. Бенчмарки измеряют конкретные, контролируемые задачи. Claude AI чаще всего применяют в сложных многошаговых инженерных рабочих процессах — ровно в таком контексте наиболее заметны и “compute”-ограничения, и поведенческие изменения из-за обновлений модели, и чувствительность к промптам.

Несколько структурных факторов могут усиливать воспринимаемое падение качества сверх реальных изменений модели:

Anthropic признала, что предпринимает шаги по снижению использования в часы пик для управления мощностями и спросом — “throttling”, который пользователи могут испытывать непосредственно как деградацию качества

Автоматическое закрытие GitHub-тикетов после бездействия может скрывать реальный объем незакрытых отчетов

Растущая доля GitHub-тикетов генерируется самими ИИ — широко отмечаемая проблема в разработке open source

Директор по AI в AMD Стелла Лоренцо публично заявила, что ответы Claude становятся хуже — это правдоподобный внешний сигнал, учитывая контекст предприятия.

Контекст сбоя

Claude.ai и Claude Code пережили крупный сбой 13 апреля 2026 года: работа продолжалась с 15:31 до 16:19 UTC, при этом были повышенные показатели ошибок в обоих продуктах. Сбой был кратким, но его время усилило недовольство разработчиков, которое и так накапливалось. Рутинные сбои обычно “встают” иначе, когда пользователи неделями фиксируют проблемы с качеством — тогда они воспринимаются как подтверждение, а не как совпадение.

FAQ

Claude AI действительно становится хуже или это восприятие пользователей?

Вероятно, и то и другое — и их трудно разделить. Объем жалоб в GitHub действительно вырос на 3,5× по сравнению с базовым уровнем января–февраля к марту, а в апреле тренд выше. Но данные бенчмарков Margin Lab показывают, что Opus 4.6 удерживает свой балл на SWE-Bench-Pro. Самое защищаемое объяснение состоит в том, что “throttling” мощностей в часы пик и обновления модели в феврале ухудшили реальный пользовательский опыт разработчиков так, что это не улавливают структурированные оценки.

Какие жалобы на качество Claude AI наиболее обоснованы?

Самые заслуживающие доверия опасения связаны с Claude Code в сложных многошаговых инженерных задачах — а именно с поведением после обновления в феврале. Тикет №42796 был рассмотрен руководителем Claude Code Борисом Черни, что подтверждает: Anthropic активно работает по крайней мере с некоторыми из заявленных регрессий. Жалобы на ограничения также выглядят правдоподобно, поскольку Anthropic публично признала шаги по управлению мощностями.

Может ли Claude AI надежно оценивать собственные проблемы с качеством?

Нет — и это центральная ирония этой истории. Claude AI может синтезировать закономерности в тех данных, которые ему показывают, но он не может отличить обоснованные жалобы от шума, генерируемого ИИ, оценить собственные ошибки калибровки или определить, отражает ли рост объема тикетов реальную деградацию либо структурные артефакты того, как тикеты на GitHub подаются и закрываются. Самооценка носит наводящий характер, но не является авторитетной.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев