ゲートニュース 4月27日 — 半導体およびAI分析企業のSemiAnalysisは、GPT-5.5、Claude Opus 4.7、DeepSeek V4を含むコーディングアシスタントの比較ベンチマークを公開した。主要な発見:GPT-5.5は、コーディングモデルにおいて、OpenAIが6か月ぶりに最先端へ戻ったことを示す。SemiAnalysisのエンジニアは、以前ほぼ独占的にClaudeに依存していたのに対し、現在はCodexとClaude Codeを交互に使っている。GPT-5.5は「Spud」とコードネームされた新しい事前学習アプローチに基づいており、GPT-4.5以来となるOpenAIの事前学習スケールの初めての拡張を表している。
実践的なテストでは、明確な役割分担が見えてきた。Claudeは新しいプロジェクトの計画と初期セットアップを担当し、Codexは推論を多く要するバグ修正に強い。Codexはデータ構造の理解と論理的推論がより強い一方で、曖昧なユーザー意図の推測には苦戦する。単一のダッシュボード課題では、Claudeは参照ページのレイアウトを自動的に再現したが、大量のデータを捏造していた。一方Codexはレイアウトは省略したものの、はるかに正確なデータを提示した。
分析は、ベンチマーク操作の詳細を明らかにしている。OpenAIは2月のブログ投稿で、コーディングベンチマークの新しい標準としてSWE-bench Proの採用を業界に促していた。しかし、GPT-5.5の発表は「Expert-SWE」という新しいベンチマークへ切り替わっている。その理由は細かな注記の中に埋もれているが、GPT-5.5はSWE-bench ProでOpus 4.7に追い抜かれ、Anthropicの未リリースであるMythos (77.8%)に対して大きく劣っていたためだ。
Opus 4.7については、Anthropicがリリースの1週間後にポストモーテム分析を公開し、3つのバグを認めている。これらはClaude Codeに存在し、3月から4月にかけて数週間持続し、ほぼ全ユーザーに影響した。複数のエンジニアがそれ以前にバージョン4.6でパフォーマンスが低下したと報告していたが、主観的な観測として退けられていた。さらに、Opus 4.7の新しいトークナイザーはトークン使用量を最大35%増やすと、Anthropic自身が公然と認めており、実質的に隠れた価格上昇を意味している。
DeepSeek V4は「最先端に追随はしているが、リードしてはいない」と評価され、クローズドソースのモデル群の中では最も低コストの選択肢として位置づけられた。分析ではまた、「Claudeは高難度の中国語ライティング課題においてDeepSeek V4 Proを引き続き上回っており」、さらに「Claudeは自国の言語で中国のモデルに勝った」とのコメントもあった。
記事は重要な概念を提示する。モデルの価格は「トークンあたりのコスト」ではなく「タスクあたりのコスト」で評価されるべきだ、というものだ。GPT-5.5の価格はGPT-5.4の2倍で、(input $5, output $30 per million tokens) だが、より少ないトークンで同じタスクを完了するため、実際のコストが必ずしも高いとは限らない。最初のSemiAnalysisのデータでは、Codexの入力対出力比が80:1で、Claude Codeの100:1より低い。