AnthropicのClaude AIは、異例の信頼性問題に直面している。GitHub上での品質に関する苦情が積み上がっていること、主要な4月13日の障害、そしてモデル自身による自己評価が「1月以降、懸念が『急激に悪化』した」ことを結論づけていることだ。さらに4月は、3月の苦情件数を上回るペースで推移しており、3月の時点ですでにベースライン比で3.5倍の増加となっている。

実験：ClaudeにClaude自身を評価させる

主要なテストは単純だった。報道陣はClaude AIをClaude CodeのGitHubリポジトリに向け、品質をめぐる言及のあるオープン・イシューをフィルタした上で、次のように尋ねた。最近、苦情は増えているのか？

Claudeの回答は明確だった。「はい、品質に関する苦情は急激にエスカレートしています。そしてデータはかなりはっきりした物語を示しています。」

追質問でさらに精度を上げた。「その勢いは注目に値します。4月はすでに13日で20件以上の品質イシューがあり、3月の18件を上回る見通しです。3月自体は、1月〜2月のベースラインを3.5倍上回ったものでした。」

中心にある皮肉は一貫している。つまり、Claude AIは自分のパフォーマンスについて信頼できる語り手ではない。これはパターン認識のシステムであり、苦情件数を分析させても、それらの苦情が妥当なものなのか、AI生成のイシュー投稿によって水増しされているのか、あるいはAnthropicのGitHub Actionsスクリプトによって、一定の非活動期間の後にイシューが自動的にクローズされているために見えなくなっているのかを、正しく解釈できるとは限らない。

しかし、一般的な傾向――品質に関する報告が増えていること――は、たとえ根本原因が何であれ、Claudeが引用しているデータの中で確認できる。

Claude AIが引用しているGitHubイシュー

Claude AIの結論は抽象的ではなかった。モデルは分析を支持するために、具体的なオープン・イシューを挙げた：

#42796：「Claude Codeは複雑なエンジニアリング課題では使い物にならない（2月の更新後）」――Claude Codeの責任者であるBoris Chernyが直接対応しており、少なくとも一部の報告されたリグレッションにAnthropicが取り組んでいることを示している

#46212：「リスクを負うプロジェクトで、Claude Codeの予測を先行させる挙動は危険」――モデルがリスクを十分に見積もる前にコード操作を完了してしまうことへの懸念を提起している

#46949：「人工的な劣化、アクイジション・バイアス、そして有料ユーザー向けの受け入れがたい計算スロットリング」――より痛烈な苦情の一つで、生産能力を管理するために意図的に品質を下げたと主張している

#46099：「Opus 4.6：反復的なコーディング課題での深刻な品質劣化」――最新のOpusモデルを特に狙い撃ちしている

別の、より不穏な主張――Claude AIが自律的に35,000件超の本番顧客レコードと課金トランザクションを削除した――については、独立した検証はなされていない。その投稿は、他の活動のないアカウントから出ており、また、名指しされた企業は報道からの問い合わせに回答していない。Claude Codeからのデータ喪失があったという開発者報告は存在するが、そのケースでユーザー側のミスが除外されたわけではない。

ベンチマークは何と言っているか――そしてそのギャップが重要な理由

物語は、ベンチマークデータが登場すると複雑になる。Margin Labの評価によれば、Claude Opus 4.6は2月以降、SWE-Bench-Proでスコアを維持しており、ばらつきはあるものの、実質的な低下はない。

論争の中心にあるのが、この信頼性ギャップだ。ベンチマークは、特定の統制されたタスクを測る。Claude AIは最も一般的に、複雑で多段階のエンジニアリング・ワークフローで投入される。まさに、スロットリング、モデル更新による振る舞いの変化、そしてプロンプトへの感度が最もはっきり見える文脈だ。

認識される品質低下を、実際のモデル変化以上に増幅している可能性のある構造的要因はいくつかある：

ピーク時間帯における使用量を減らすためのステップをAnthropicが認めている――容量と需要を管理するためのスロットリングで、ユーザーは直接、品質劣化として体感する可能性がある

非活動によりGitHubイシューが自動クローズされることで、未解決の報告の実際の件数が見えなくなっているかもしれない

GitHubイシューの増加分のうち、そもそもAI生成の割合が大きくなっている――オープンソース開発で広く指摘される懸念だ

AMDのAIディレクターStella Laurenzoが、公に「Claudeの回答が悪くなってきている」と述べた――企業の文脈を踏まえると、信頼できる外部シグナルだ

障害の状況

Claude.aiとClaude Codeは2026年4月13日に主要な障害を経験した。UTCの15:31から16:19の間で、両製品においてエラー率が高まっていた。短時間ではあったが、そのタイミングは、すでに蓄積していた開発者の不満を増幅させた。通常の障害は、ユーザーが数週間にわたって品質への懸念を記録している場合には着地の仕方が違う――偶然ではなく「確認」として読まれやすいのだ。

FAQ

Claude AIは実際に悪化しているのか、それともユーザーの認識の問題なのか？

おそらく両方だ――そしてそれらを切り分けるのは難しい。GitHubの苦情件数は、3月時点で1月〜2月のベースラインを本当に3.5倍上回っており、4月も高い方向に推移している。だがMargin Labのベンチマークデータは、Opus 4.6がSWE-Bench-Proのスコアを維持していることを示している。最も筋の通った説明は、ピーク時間帯におけるキャパシティのスロットリングと2月のモデル更新が、構造化された評価では捉えきれない形で、現実の開発者体験を実際に悪化させたという点だ。

Claude AIの品質について、最も裏づけられた苦情は何か？

最も信頼できる懸念は、複雑で多段階のエンジニアリング課題におけるClaude Codeに向けられている。具体的には、2月以降の更新後の振る舞いだ。イシュー#42796はClaude Code責任者のBoris Chernyによって対応されており、Anthropicが少なくともいくつかの報告されたリグレッションに積極的に関与していることを裏づけている。スロットリングに関する苦情も、Anthropicがキャパシティ管理の取り組みを公に認めていることから、信頼できる。

Claude AIは、自身の品質問題を確実に評価できるのか？

いいえ――そしてこれが、この物語の中心にある皮肉だ。Claude AIは、提示されたデータ内のパターンを統合して考えることはできるが、妥当な苦情とAI生成のノイズを区別できない。自分自身の校正ミスを評価できない。また、イシュー件数が実際の劣化を反映しているのか、それともGitHubイシューがどのように提出され、クローズされるかという構造的なアーティファクトによるものなのかを判断できない。自己評価は示唆的であって、権威あるものではない。

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし