Vals AI、Finance Agent v2 のベンチマークを公開。GPT-5.5 は 51.76% を獲得し、すべてのモデルは厳格な採点のもとで 40% 未満にとどまります

ALL3.67%

Beatingによると、AI評価企業のVals AIは5月14日に第2世代のFinance Agent v2ベンチマークを公開し、927件の専門家レビュー済みの質問を通じて金融分析ワークフローをテストしました。GPT-5.5が51.76%の正確性率で首位となり、続いてClaude Opus 4.7(51.51%)、Claude Sonnet 4.6(51.03%)が僅差で追いました。試験では、モデルに対し、10-Kおよび10-Qの財務諸表が数百ページにわたる中から関連する箇所を独立して特定し、正確な中間の数値を用いて多段階の計算を完了することが求められました。

完全に正しい回答を要求する厳格な採点基準の下では、主要モデルはいずれも正確性率が40%未満に落ち込みました。最も難しいカテゴリである金融モデリングと先例分析では、最高でも23%にとどまりました。その他のモデルでは、Kimi K2.6が44.87%で5位、続いてGLM 5.1(44.79%)、DeepSeek V4(44.08%)でした。前回バージョンでOpus 4.7が64.4%を記録していたのに対し、大きく下落したことは、AIが単純な検索は扱える一方で、厳密な数値精度を要する金融という複雑な領域で人間のアナリストの代替になるには程遠いことを示しています。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし