Claude Fable 5のデバッグスコアが7月1日に86.2から25.9に低下、しかしArena.AIはパフォーマンスが横ばいであることを示している

BridgeBench によると、Claude Fable 5 のデバッグスコアは 7 月 1 日の復活後に 86.2 から 25.9 に急落し、リファクタリングは 73.6 から 38.4 に低下しました。しかし、この低下はモデルの劣化ではなく、Anthropic の新しい安全分類器がほとんどのコーディングタスクを Claude Opus 4.8 にルーティングしていることを反映しています。12 のデバッグタスクのうち、Fable 5 に届いたのはわずか 3 つで、分類器は脱獄エクスプロイトを防ぐために意図的に 9 つを傍受しました。

Arena.AI の同時進行の人間嗜好テストでは、数千のブラインド投票にわたって、復活後の Fable 5 のパフォーマンスはほぼ変化しておらず、ドキュメントスコアは 34 ポイント上昇し、専門家テキストは 25 ポイント上昇しました。クリエイティブライティング、リサーチ、分析を扱う一般ユーザーはおそらくほとんど影響に気付かないでしょうが、セキュリティ関連のコードに取り組む開発者は頻繁なフォールバックルーティングに直面します。Anthropic は現在、分類器の網が広すぎることを認めましたが、改良のスケジュールは示していません。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし