Gate 新聞訊息,4月27日——SemiAnalysis,一家半導體與 AI 分析公司,發布了一份包含 GPT-5.5、Claude Opus 4.7 與 DeepSeek V4 的編碼助手對比基準測試。關鍵發現:GPT-5.5 標誌著 OpenAI 在六個月後首次重返編碼模型的最前沿,且 SemiAnalysis 工程師如今在 Codex 與 Claude Code 之間交替使用;此前他們幾乎完全依賴 Claude。GPT-5.5 採用一種代號為「Spud」的新預訓練方法,代表 OpenAI 自 GPT-4.5 以來首次擴大預訓練規模。
在實際測試中,出現了明顯的分工。Claude 負責新的專案規劃與初始設定,而 Codex 在推理密集型的除錯修復方面表現更出色。Codex 展現出更強的資料結構理解與邏輯推理能力,但在推斷含糊的使用者意圖方面存在困難。在一個單一儀表板任務中,Claude 會自動複製參考頁面版面,但卻捏造大量資料;而 Codex 則跳過版面,但提供了顯著更準確的資料。
分析揭示了一個基準測試操控細節:OpenAI 在 2 月的博客文章中呼籲業界採用 SWE-bench Pro 作為新的編碼基準標準。然而,GPT-5.5 的公告改用了一個名為「Expert-SWE」的新基準。其原因被埋在細微的附註之中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,且在未發布的 Mythos (77.8%) 上遠遠落後 Anthropic。
至於 Opus 4.7,Anthropic 在發布一週後發表了死因剖析式分析,承認 Claude Code 存在三個在 3 月至 4 月持續數週、影響幾乎所有用戶的錯誤。多位工程師先前已報告 4.6 版出現效能退化,但都被否定為主觀觀察。此外,Opus 4.7 的新 tokenizer 會使 token 使用量最多增加 35%,而 Anthropic 也公開承認——實際上等同於隱藏的價格上調。
DeepSeek V4 被評估為「跟上前沿但不領先」,並將自己定位為封閉來源模型中的最低成本替代方案。分析亦指出:「Claude 依然能在高難度中文寫作任務上優於 DeepSeek V4 Pro」,並評論稱:「Claude 在自己的語言中擊敗了中文模型。"
文章引入一個關鍵概念:模型定價應以「每項任務成本」來評估,而不是「每 token 成本」。GPT-5.5 的定價是 GPT-5.4 的兩倍 (input $5, output $30 per million tokens),但它能用更少的 token 完成相同的任務,因此實際成本未必更高。SemiAnalysis 的初步數據顯示 Codex 的輸入到輸出比為 80:1,低於 Claude Code 的 100:1。