Gate Newsメッセージ、4月20日――DatabricksのDavid Meyerによると、トップクラスのAIモデルはオリンピアード数学のような複雑な問題の解決に優れる一方で、日常的な企業業務では苦戦します。あるモデルはエラーとしてフラグを立てる代わりに、誤った請求書番号を修正してしまうことがあります。また、Claudeのようなコーディングツールでも、データエンジニアリングのタスクで期待ほどの性能を発揮できない場合があります。
そのギャップは、大規模モデルの学習に使われる公開Webテキストと、企業データとの間にある基本的な違いに起因します。企業データには、曖昧な列ラベルが含まれていることが多く、空欄が多数あり、コードがそのままテキストとして保存されていることもあります。ある学術研究では、適合率と再現率の両方のバランスを取るAIモデルのF1スコアが、公開データで0.94だったのに対し、データエンジニアリングのタスクにおける企業データでは0.07まで低下しました。さらに、大規模モデルは学習時に馴染んだパターンへデフォルトで寄りがちで、企業の独自のクエリ言語に関する指示とドキュメントを受け取った後でも、Structured Query Language (SQL)にデフォルト設定してしまった例がありました。
強化学習で調整された小型のオープンソースモデルは、大規模な汎用モデルよりも大幅に低い学習コストで、特定の仕事をより効率的に処理できます。Databricksは、会社の文書を用いたマルチステップ推論に強化学習を使うKARLのように、特定のワークフロー向けの小型AIエージェントを構築しています。業界では、巨大モデルへの依存から脱し、ハイブリッドなアーキテクチャへとシフトが進んでいます。すなわち、小型で効率的なモデルが日常的な量を処理し、不明確または複雑なケースだけを、より大きくコストの高いシステムへエスカレーションするのです。
Databricksは最近、巨大企業がAIエージェントをより確実に運用できるようにするため、Quotient AIを買収しました。AIビジネスにおける競争の中心は、AIの全ライフサイクルを回すことにあります。そこには、エラーを追跡するためのフィードバックシステムや、時間の経過に伴ってモデルを継続的に改善する取り組みが含まれます。そのため、デプロイ後に評価・調整のためのツールがこれまで以上に価値を持つようになっています。