
The New York Timesによって報じられた新しいOumiの調査では、GoogleのAI Overviewsが9%の確率で不正確だったことが判明した――Google規模では、1時間あたり数千万件の誤った回答に相当する。正確な回答の半分以上でも、主張を十分に裏づけない出典が引用されており、一方でGoogleは、この調査を「深刻に欠陥がある」と述べた。
Oumiは、10月のGemini 2による回答と、2月のGemini 3による回答の計4,326件の検索を分析し、Gemini 2は85%の正確性を達成したのに対し、Gemini 3は91%まで改善したことを見出した。個別には、これらはいずれも生成AIシステムとしては擁護可能な数字だ。
課題は「量」だ。Googleが報告する年5兆+件の検索率では、計算すると次のような憂うべき状況が浮かび上がる:
· ~1,400万件の不正確なAI回答が毎時生成される
· ~23万件の誤った回答が毎分提供される
· ピーク時に~4,000件のエラーが毎秒発生する
規模の議論は、精度をめぐる論争全体の見方を変える。つまり、仮に小さな誤り率であっても、何十億人もの人々が使うシステムに適用されれば、絶対的な意味で大規模な誤情報問題になる。
生の精度の数字に加えて、Oumiは別の、しかもおそらくより懸念の大きい問題を特定した。それは「グラウンディング」――AI Overviewsで引用される出典が、実際に行われている主張を裏づけているかどうかだ。調査結果は、前身よりも正確性が高いにもかかわらず、Gemini 3が「本当に裏づけになる」引用を提示する点では大幅に劣っていることを示している。
Gemini 2では、正解の37%がグラウンディングされていなかった。その数値はGemini 3では56%に上昇した――つまり、正確な回答の大多数でも、提供された情報を十分に裏づけない出典にまだ紐づけられている。これにより検証の問題が生じる。つまり「回答を確認するために」引用元をクリックしたユーザーは、出典がAIの提示内容と異なること、あるいは不完全であることを見つけるかもしれない。
さらに、5,380件の引用参照にまたがる出典分析でも、プラットフォーム上の懸念が浮上した。Facebookは全体で2番目に多く引用された出典としてランクされ、Redditは4位だった。どちらも、ユーザー生成で検証されていないコンテンツが多いソーシャルメディア・プラットフォームである――AIが合成した検索結果の上部に表示されると、根拠のない権威が与えられてしまう。Facebookは正確な回答の5%と不正確な回答の7%で引用されており、監視に値するパターンが示唆される。
Googleは、調査の結論をそのまま受け入れなかった。広報担当者のNed Adrianceは、分析の基本設計に疑問を投げかけた。Oumiは、自社のAIモデルを用いてGoogleのAI精度を評価しており、これは手法上の循環性を生む――Oumiのモデルも誤りを起こし得るなら、Google側の誤りに関するOumiの判断自体が、信頼できないものになり得る。
「この調査には深刻な穴があります」とAdrianceは述べた。「Googleで人々が実際に検索している内容を反映していません。」
Googleはまた、自社の比較データも公表した。同社は、スタンドアロンのGemini 3――AI Overviewsが追加で提供する文脈なしで動作する場合――では28%の確率で不正確だったと述べており、AI Overviewsシステムが、生のモデル出力に比べて意味のある精度向上をもたらしていることを示唆している。同社は、すべてのAI Overviewsの下部に標準の免責事項を維持している。「AIは間違いを起こし得るため、回答を再確認してください。」
Google AI Overviewsは、Google検索結果の上部に表示されるAIが生成した要約であり、ユーザーのクエリに対する回答を合成し、裏づけとなるWebソースを引用します。GoogleのGeminiモデルによって動作し、この機能は2024年に広く導入され、現在では世界中の数十億件の検索にわたって表示されています。リンクを単に列挙するのではなくテキストを生成するため、標準の検索結果とは異なります。
AI Overviewsは、引用しているWebサイトが、要約に提示されている情報を実際に検証したり、十分に裏づけたりしていない場合、「グラウンディングされていない(ungrounded)」と見なされます。これは問題です。引用された出典をクリックして主張を確認しようとするユーザーは、出典がAIの発言に矛盾している、部分的にしか支持していない、またはまったく関係がない、という状況を見つける可能性があるためです。これにより、信頼できる情報ツールとしてのシステムの役割が損なわれ、独立した検証が難しくなります。
Google自身が、AIは間違いを起こし得るという内蔵の免責事項で、この制限を認めています。リスクの低いクエリであれば、AI Overviewsは有用な出発点になるかもしれません。健康、法律、金融、または事実に関する判断では、ユーザーはAIで合成された要約だけに頼るのではなく、権威ある一次ソースを通じて情報を独自に検証すべきです。引用された出典を、AIの描写を受け入れるのではなく、直接確認することが推奨されます。