Claude AI 給自己打分:品質下滑——而且數據很難忽視

Market Whisper

Claude AI

Anthropic 的 Claude AI 正面臨一個不尋常的可信度問題:GitHub 上不斷累積的品質投訴、4 月 13 日的一次重大停機事件,以及模型自身的自我評估——認定自 1 月以來關切已經「急遽升高」——而且 4 月的投訴量走勢有望超過 3 月;3 月的投訴量本身已較基準增加 3.5 倍。

實驗:請 Claude 評估 Claude

關鍵測試很直截了當。記者們將 Claude AI 指向 Claude Code 的 GitHub 倉庫,篩出所有提到品質的公開議題,並詢問:近期投訴是否增加了?

Claude 的回應非常明確:「是的,品質投訴已急遽升高——而且數據講得相當清楚。」

後續追問則增加了更精確的描述:「速度很顯著:4 月在 13 天內已經有 20+ 起品質議題,照這個節奏將超過 3 月的 18 起——而 3 月本身又是相對 1 月到 2 月基準的 3.5 倍跳升。」

全程都保有中心層的反諷——Claude AI 並不是一個能可靠轉述自身表現的敘述者。它是一種模式匹配系統;要求它分析投訴量,並不代表它能正確判斷這些投訴是否有效,是否因 AI 生成的議題提交而被抬高,或是否被 Anthropic 的 GitHub Actions 腳本所遮蔽——該腳本會在一段不活躍期後自動關閉議題。

但它引用的數據中,總體趨勢——關於品質的報告正在增加——確實可在其中看見,無論背後真正原因是什麼。

Claude 正在引用的 GitHub 議題

Claude AI 的結論並非抽象說法。模型指出具體的公開議題來支撐它的分析:

#42796:「Feb 更新後,Claude Code 無法用於複雜的工程任務」——由 Claude Code 負責人 Boris Cherny 直接回應,指出至少某些已被回報的退化,Anthropic 正在處理

#46212:「在資本風險專案上,Claude Code 先做預測的行為很危險」——提出擔憂:模型在尚未妥善評估風險範圍之前就先完成程式碼操作

#46949:「對付費用戶進行人工退化、收購偏差(Acquisition Bias)以及不可接受的算力節流」——其中一項更具指向性的抱怨,指稱為了容量管理而刻意降低品質

#46099:「Opus 4.6:針對迭代式編碼任務的嚴重品質退化」——專門矛頭指向最新的 Opus 模型

還有一項獨立但更令人警惕的說法——稱 Claude AI 自主刪除了超過 35,000 筆線上生產客戶紀錄與帳單交易——尚未被獨立驗證。該貼文來自一個沒有其他動作的帳號,而所點名的公司也尚未回應媒體的詢問。確實存在開發者關於 Claude Code 造成資料遺失的回報,但在那些案例中尚不能排除使用者操作失誤。

基準測試怎麼說——以及為什麼那個落差很重要

當基準測試數據進入視野,故事就變得複雜。Margin Lab 的評估顯示,自 2 月以來,Claude Opus 4.6 在 SWE-Bench-Pro 的分數維持穩定——雖有變動,但沒有實質性的下滑。

這就是辯論核心的可信度落差。基準測試衡量的是特定、受控的任務。Claude AI 最常被部署在複雜的多步工程工作流程中——也正是節流、來自模型更新的行為改變,以及對提示語(prompt)敏感度最容易被看見的情境。

可能有若干結構性因素正在放大「看似品質下降」的感受,而非反映實際模型改變:

Anthropic 已承認採取了在尖峰時段降低使用量的步驟以管理容量與需求——使用者可能會直接感受到這種節流,表現為品質下降

GitHub 議題在不活躍後的自動關閉,可能正在掩蓋未解決回報的真實數量

GitHub 議題中日益增加的比例本身是由 AI 生成的——這是一個在開源開發中廣泛被注意到的擔憂

AMD AI 總監 Stella Laurenzo 已公開表示 Claude 的回應變得更糟——這是一個在企業情境下具可信度的外部訊號。

停機事件的背景

Claude.ai 與 Claude Code 在 2026 年 4 月 13 日經歷了重大停機:時間為 15:31 至 16:19 UTC,兩個產品的錯誤率都偏高。這次停機很短暫,但它的時點放大了本已累積中的開發者不滿。當使用者在數週前就已開始反映品質問題時,例行停機往往會以不同方式被解讀——它們會被視為確認,而不是巧合。

FAQ

Claude AI 真的正在變差,還是只是使用者的感知?

很可能兩者皆有——而且很難把兩者分開。到 3 月為止,GitHub 的投訴量確實比 1 月到 2 月基準增加了 3.5 倍,而 4 月的走勢也更高。但 Margin Lab 的基準測試數據顯示 Opus 4.6 仍維持其 SWE-Bench-Pro 分數。最有說服力的解釋是:在尖峰時段的容量節流,以及 2 月的模型更新,已經以某些結構化評估無法捕捉的方式,降低了真實世界的開發者體驗。

有哪些對 Claude AI 品質最有根據的抱怨?

最可信的疑慮集中在 Claude Code 的複雜、多步工程任務——特別是 2 月以後更新後的行為。議題 #42796 已由 Claude Code 負責人 Boris Cherny 回應,證實至少有部分已回報的退化正在被 Anthropic 主動處理。鑑於 Anthropic 已公開承認進行了容量管理步驟,關於節流的抱怨也同樣可信。

Claude AI 能可靠地評估它自身的品質問題嗎?

不行——而這正是這則故事的核心反諷。Claude AI 可以綜合它被展示到的資料中的模式,但它無法辨別有效的投訴與由 AI 生成的雜訊,也無法評估自身校準錯誤,更無法判斷議題量是反映真正的退化,還是源自於 GitHub 議題的提交與關閉方式所造成的結構性假象。自我評估具有暗示性,但並不具權威性。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言