ゲートニュース 4月27日 — Google DeepMindのシニア・プロダクトマネージャーであり、Google AI Studioのプロダクトリードでもあるローガン・キルパトリックは、Xで、AIベースのプロダクトを構築するすべての企業は、AIモデルの性能を測るために自社のカスタムベンチマークを確立すべきだと述べた。彼はこれを、モデルの改善が「自社に不釣り合いなほど大きな利益をもたらす」ための方法だと説明し、創業者やビジネスリーダーに「明日から始めるよう」促した。
ほとんどの企業は現在、公的なリーダーボードに依存してAIモデルを選んでいるが、それらは一般的な能力を測るものであり、多くの場合、特定のビジネスシナリオと噛み合っていない。キルパトリックは例として、契約書レビュー会社を挙げた。同社が最も重視しているのは条項抽出の正確性だが、その能力は公的ベンチマークに存在しないため、そのタスクにおけるモデル性能を評価できない。カスタムベンチマークには2つの重要な利点がある。第一に、企業は自社のビジネス課題に対して各モデル更新を評価し、全体で最上位のモデルではなく、実際の利用ケースで最も良い性能を発揮するモデルを選べるようになること。第二に、企業はこれらのテストセットをモデル提供者と共有でき、ビジネスにとって重要な領域での継続的な最適化につながることだ。
キルパトリックは、ZapierやSierraのような企業がすでにこのアプローチを実装しているとし、「ここで生み出せるアルファはかなりある」と述べた。