Anthropic 的 Claude AI 正面臨一個不尋常的可信度問題：GitHub 上不斷累積的品質投訴、4 月 13 日的一次重大停機事件，以及模型自身的自我評估——認定自 1 月以來關切已經「急遽升高」——而且 4 月的投訴量走勢有望超過 3 月；3 月的投訴量本身已較基準增加 3.5 倍。

實驗：請 Claude 評估 Claude

關鍵測試很直截了當。記者們將 Claude AI 指向 Claude Code 的 GitHub 倉庫，篩出所有提到品質的公開議題，並詢問：近期投訴是否增加了？

Claude 的回應非常明確：「是的，品質投訴已急遽升高——而且數據講得相當清楚。」

後續追問則增加了更精確的描述：「速度很顯著：4 月在 13 天內已經有 20+ 起品質議題，照這個節奏將超過 3 月的 18 起——而 3 月本身又是相對 1 月到 2 月基準的 3.5 倍跳升。」

全程都保有中心層的反諷——Claude AI 並不是一個能可靠轉述自身表現的敘述者。它是一種模式匹配系統；要求它分析投訴量，並不代表它能正確判斷這些投訴是否有效，是否因 AI 生成的議題提交而被抬高，或是否被 Anthropic 的 GitHub Actions 腳本所遮蔽——該腳本會在一段不活躍期後自動關閉議題。

但它引用的數據中，總體趨勢——關於品質的報告正在增加——確實可在其中看見，無論背後真正原因是什麼。

Claude 正在引用的 GitHub 議題

Claude AI 的結論並非抽象說法。模型指出具體的公開議題來支撐它的分析：

#42796：「Feb 更新後，Claude Code 無法用於複雜的工程任務」——由 Claude Code 負責人 Boris Cherny 直接回應，指出至少某些已被回報的退化，Anthropic 正在處理

#46212：「在資本風險專案上，Claude Code 先做預測的行為很危險」——提出擔憂：模型在尚未妥善評估風險範圍之前就先完成程式碼操作

#46949：「對付費用戶進行人工退化、收購偏差（Acquisition Bias）以及不可接受的算力節流」——其中一項更具指向性的抱怨，指稱為了容量管理而刻意降低品質

#46099：「Opus 4.6：針對迭代式編碼任務的嚴重品質退化」——專門矛頭指向最新的 Opus 模型

還有一項獨立但更令人警惕的說法——稱 Claude AI 自主刪除了超過 35,000 筆線上生產客戶紀錄與帳單交易——尚未被獨立驗證。該貼文來自一個沒有其他動作的帳號，而所點名的公司也尚未回應媒體的詢問。確實存在開發者關於 Claude Code 造成資料遺失的回報，但在那些案例中尚不能排除使用者操作失誤。

基準測試怎麼說——以及為什麼那個落差很重要

當基準測試數據進入視野，故事就變得複雜。Margin Lab 的評估顯示，自 2 月以來，Claude Opus 4.6 在 SWE-Bench-Pro 的分數維持穩定——雖有變動，但沒有實質性的下滑。

這就是辯論核心的可信度落差。基準測試衡量的是特定、受控的任務。Claude AI 最常被部署在複雜的多步工程工作流程中——也正是節流、來自模型更新的行為改變，以及對提示語（prompt）敏感度最容易被看見的情境。

可能有若干結構性因素正在放大「看似品質下降」的感受，而非反映實際模型改變：

Anthropic 已承認採取了在尖峰時段降低使用量的步驟以管理容量與需求——使用者可能會直接感受到這種節流，表現為品質下降

GitHub 議題在不活躍後的自動關閉，可能正在掩蓋未解決回報的真實數量

GitHub 議題中日益增加的比例本身是由 AI 生成的——這是一個在開源開發中廣泛被注意到的擔憂

AMD AI 總監 Stella Laurenzo 已公開表示 Claude 的回應變得更糟——這是一個在企業情境下具可信度的外部訊號。

停機事件的背景

Claude.ai 與 Claude Code 在 2026 年 4 月 13 日經歷了重大停機：時間為 15:31 至 16:19 UTC，兩個產品的錯誤率都偏高。這次停機很短暫，但它的時點放大了本已累積中的開發者不滿。當使用者在數週前就已開始反映品質問題時，例行停機往往會以不同方式被解讀——它們會被視為確認，而不是巧合。

FAQ

Claude AI 真的正在變差，還是只是使用者的感知？

很可能兩者皆有——而且很難把兩者分開。到 3 月為止，GitHub 的投訴量確實比 1 月到 2 月基準增加了 3.5 倍，而 4 月的走勢也更高。但 Margin Lab 的基準測試數據顯示 Opus 4.6 仍維持其 SWE-Bench-Pro 分數。最有說服力的解釋是：在尖峰時段的容量節流，以及 2 月的模型更新，已經以某些結構化評估無法捕捉的方式，降低了真實世界的開發者體驗。

有哪些對 Claude AI 品質最有根據的抱怨？

最可信的疑慮集中在 Claude Code 的複雜、多步工程任務——特別是 2 月以後更新後的行為。議題 #42796 已由 Claude Code 負責人 Boris Cherny 回應，證實至少有部分已回報的退化正在被 Anthropic 主動處理。鑑於 Anthropic 已公開承認進行了容量管理步驟，關於節流的抱怨也同樣可信。

Claude AI 能可靠地評估它自身的品質問題嗎？

不行——而這正是這則故事的核心反諷。Claude AI 可以綜合它被展示到的資料中的模式，但它無法辨別有效的投訴與由 AI 生成的雜訊，也無法評估自身校準錯誤，更無法判斷議題量是反映真正的退化，還是源自於 GitHub 議題的提交與關閉方式所造成的結構性假象。自我評估具有暗示性，但並不具權威性。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言