StepFunのStepAudio 2.5が5つの音声AIベンチマークで首位に立ち、GPT Realtime 1.5を上回りました

上海拠点のAIラボStepFunは今週、StepAudio 2.5 Realtimeをリリースした。中国語と英語をサポートするエンドツーエンドのリアルタイム音声モデルだ。同社のテストによれば、このモデルは2026年4月に実施された5つの音声AIベンチマークすべてで首位を獲得し、OpenAIのGPT Realtime 1.5やGoogleのGemini Liveを上回った。

パラ言語理解ベンチマーク――感情や話速のような音響特徴の知覚を0〜100のスケールで測る指標――では、StepAudioは82.18を獲得し、GPT Realtime 1.5の80.46およびGemini Liveの58.05を上回った。人手による評価テストでは、StepAudioは80.41を達成し、GPT Realtime 1.5は68.01、Gemini Liveは67.16だった。StepFunは、ロールプレイに特化した強化学習でキャラクターの一貫性を長時間の会話中に維持できるように、100万規模のパーソナデータセットでモデルを訓練した。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし