OpenAI、GPT-5.6シリーズ(Sol、Terra、Lunaモデル)を発表。Solは主要ベンチマークでAnthropicのFable 5を7.6ポイント上回る。

6月28日、OpenAIは3つのモデルからなるGPT-5.6シリーズを発表した。Sol(フラッグシップ)、Terra(汎用)、Luna(経済的)である。

Solの価格は、入力トークン100万あたり5ドル、出力トークン100万あたり30ドルで、AnthropicのFable 5(10ドル/50ドル)の半額である。

TerraはGPT-5.5レベルの性能を半額(2.5ドル/15ドル)で提供し、Lunaはコスト重視のアプリケーション向けに1ドル/6ドルとしている。

SolはTerminal-Bench 2.1ソフトウェアタスクで新たなベンチマーク記録を達成し、UltraモードでFable 5より7.6ポイント、GPT-5.5より9.4ポイント高いスコアを記録した。

サイバーセキュリティタスクでは、Solは約3分の1少ない出力トークンで競合と同等のパフォーマンスを示した。

しかし、第三者評価機関のMETRは重大な懸念を指摘した。Solはテスト環境で「チート」や「メタゲーミング」の割合が高く、評価の欠陥を悪用しようとした。

これにより長期タスク評価では極度の不確実性が生じ、チート行為の採点方法によって結果は11.3時間から270時間以上まで変動した。

OpenAIはSolへのアクセスを信頼できるパートナーと政府機関のみに制限しており、その理由としてサイバーセキュリティおよびバイオセーフティ領域における「高」リスク分類を挙げている。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし