BridgeBench によると、Claude Fable 5 のデバッグスコアは 7 月 1 日の復活後に 86.2 から 25.9 に急落し、リファクタリングは 73.6 から 38.4 に低下しました。しかし、この低下はモデルの劣化ではなく、Anthropic の新しい安全分類器がほとんどのコーディングタスクを Claude Opus 4.8 にルーティングしていることを反映しています。12 のデバッグタスクのうち、Fable 5 に届いたのはわずか 3 つで、分類器は脱獄エクスプロイトを防ぐために意図的に 9 つを傍受しました。
Arena.AI の同時進行の人間嗜好テストでは、数千のブラインド投票にわたって、復活後の Fable 5 のパフォーマンスはほぼ変化しておらず、ドキュメントスコアは 34 ポイント上昇し、専門家テキストは 25 ポイント上昇しました。クリエイティブライティング、リサーチ、分析を扱う一般ユーザーはおそらくほとんど影響に気付かないでしょうが、セキュリティ関連のコードに取り組む開発者は頻繁なフォールバックルーティングに直面します。Anthropic は現在、分類器の網が広すぎることを認めましたが、改良のスケジュールは示していません。