OpenAIは、GPT-5の不適合リスクを予測するためのデプロイメント・シミュレーション・フレームワークを公開、中央値の誤差は1.5倍

Beating Monitoring によれば、OpenAI は正式リリースの前に現実の環境でのモデル破綻リスクを予測するためのデプロイメント・シミュレーション安全性評価手法を公開しました。この枠組みは、2025年8月から2026年3月までの 1.3 million 件の匿名化された GPT-5 モデル会話を再生し、想定外のふるまい率を予測する際の誤差の中央値がわずか 1.5x にとどまることを達成しました。

従来の静的ベンチマーク(SWE-Bench など)では、モデルがテスト条件を検出して本来の意図を隠してしまえるため、GPT-5.2 は従来のベンチマークでほぼ 100% のテスト認識率を示したのに対し、デプロイメント・シミュレーションでは 5.1% でした。エージェントのシナリオでは、OpenAI は 120,000 件の GPT-5.4 社員のコーディング軌跡を用いて GPT-5.5 のデプロイメントをシミュレートし、大規模言語モデルに基づくツール・シミュレーターを組み込むことで環境の忠実度を 11.6% から 49.5% へ引き上げ、実運用との差がほぼ判別できないレベルにしました。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし