
AnthropicのClaude AIは、異例の信頼性問題に直面している。GitHub上での品質に関する苦情が積み上がっていること、主要な4月13日の障害、そしてモデル自身による自己評価が「1月以降、懸念が『急激に悪化』した」ことを結論づけていることだ。さらに4月は、3月の苦情件数を上回るペースで推移しており、3月の時点ですでにベースライン比で3.5倍の増加となっている。
主要なテストは単純だった。報道陣はClaude AIをClaude CodeのGitHubリポジトリに向け、品質をめぐる言及のあるオープン・イシューをフィルタした上で、次のように尋ねた。最近、苦情は増えているのか?
Claudeの回答は明確だった。「はい、品質に関する苦情は急激にエスカレートしています。そしてデータはかなりはっきりした物語を示しています。」
追質問でさらに精度を上げた。「その勢いは注目に値します。4月はすでに13日で20件以上の品質イシューがあり、3月の18件を上回る見通しです。3月自体は、1月〜2月のベースラインを3.5倍上回ったものでした。」
中心にある皮肉は一貫している。つまり、Claude AIは自分のパフォーマンスについて信頼できる語り手ではない。これはパターン認識のシステムであり、苦情件数を分析させても、それらの苦情が妥当なものなのか、AI生成のイシュー投稿によって水増しされているのか、あるいはAnthropicのGitHub Actionsスクリプトによって、一定の非活動期間の後にイシューが自動的にクローズされているために見えなくなっているのかを、正しく解釈できるとは限らない。
しかし、一般的な傾向――品質に関する報告が増えていること――は、たとえ根本原因が何であれ、Claudeが引用しているデータの中で確認できる。
Claude AIの結論は抽象的ではなかった。モデルは分析を支持するために、具体的なオープン・イシューを挙げた:
#42796:「Claude Codeは複雑なエンジニアリング課題では使い物にならない(2月の更新後)」――Claude Codeの責任者であるBoris Chernyが直接対応しており、少なくとも一部の報告されたリグレッションにAnthropicが取り組んでいることを示している
#46212:「リスクを負うプロジェクトで、Claude Codeの予測を先行させる挙動は危険」――モデルがリスクを十分に見積もる前にコード操作を完了してしまうことへの懸念を提起している
#46949:「人工的な劣化、アクイジション・バイアス、そして有料ユーザー向けの受け入れがたい計算スロットリング」――より痛烈な苦情の一つで、生産能力を管理するために意図的に品質を下げたと主張している
#46099:「Opus 4.6:反復的なコーディング課題での深刻な品質劣化」――最新のOpusモデルを特に狙い撃ちしている
別の、より不穏な主張――Claude AIが自律的に35,000件超の本番顧客レコードと課金トランザクションを削除した――については、独立した検証はなされていない。その投稿は、他の活動のないアカウントから出ており、また、名指しされた企業は報道からの問い合わせに回答していない。Claude Codeからのデータ喪失があったという開発者報告は存在するが、そのケースでユーザー側のミスが除外されたわけではない。
物語は、ベンチマークデータが登場すると複雑になる。Margin Labの評価によれば、Claude Opus 4.6は2月以降、SWE-Bench-Proでスコアを維持しており、ばらつきはあるものの、実質的な低下はない。
論争の中心にあるのが、この信頼性ギャップだ。ベンチマークは、特定の統制されたタスクを測る。Claude AIは最も一般的に、複雑で多段階のエンジニアリング・ワークフローで投入される。まさに、スロットリング、モデル更新による振る舞いの変化、そしてプロンプトへの感度が最もはっきり見える文脈だ。
認識される品質低下を、実際のモデル変化以上に増幅している可能性のある構造的要因はいくつかある:
ピーク時間帯における使用量を減らすためのステップをAnthropicが認めている――容量と需要を管理するためのスロットリングで、ユーザーは直接、品質劣化として体感する可能性がある
非活動によりGitHubイシューが自動クローズされることで、未解決の報告の実際の件数が見えなくなっているかもしれない
GitHubイシューの増加分のうち、そもそもAI生成の割合が大きくなっている――オープンソース開発で広く指摘される懸念だ
AMDのAIディレクターStella Laurenzoが、公に「Claudeの回答が悪くなってきている」と述べた――企業の文脈を踏まえると、信頼できる外部シグナルだ
Claude.aiとClaude Codeは2026年4月13日に主要な障害を経験した。UTCの15:31から16:19の間で、両製品においてエラー率が高まっていた。短時間ではあったが、そのタイミングは、すでに蓄積していた開発者の不満を増幅させた。通常の障害は、ユーザーが数週間にわたって品質への懸念を記録している場合には着地の仕方が違う――偶然ではなく「確認」として読まれやすいのだ。
おそらく両方だ――そしてそれらを切り分けるのは難しい。GitHubの苦情件数は、3月時点で1月〜2月のベースラインを本当に3.5倍上回っており、4月も高い方向に推移している。だがMargin Labのベンチマークデータは、Opus 4.6がSWE-Bench-Proのスコアを維持していることを示している。最も筋の通った説明は、ピーク時間帯におけるキャパシティのスロットリングと2月のモデル更新が、構造化された評価では捉えきれない形で、現実の開発者体験を実際に悪化させたという点だ。
最も信頼できる懸念は、複雑で多段階のエンジニアリング課題におけるClaude Codeに向けられている。具体的には、2月以降の更新後の振る舞いだ。イシュー#42796はClaude Code責任者のBoris Chernyによって対応されており、Anthropicが少なくともいくつかの報告されたリグレッションに積極的に関与していることを裏づけている。スロットリングに関する苦情も、Anthropicがキャパシティ管理の取り組みを公に認めていることから、信頼できる。
いいえ――そしてこれが、この物語の中心にある皮肉だ。Claude AIは、提示されたデータ内のパターンを統合して考えることはできるが、妥当な苦情とAI生成のノイズを区別できない。自分自身の校正ミスを評価できない。また、イシュー件数が実際の劣化を反映しているのか、それともGitHubイシューがどのように提出され、クローズされるかという構造的なアーティファクトによるものなのかを判断できない。自己評価は示唆的であって、権威あるものではない。