Google AI 概覽錯誤率每 10 次有 1 次,每小時數百萬個錯誤

Market Whisper

AI Overviews

根據《紐約時報》報導的一項 Oumi 研究發現:Google 的 AI Overviews 有 9% 的機率不準確——以 Google 規模計算,意味著每小時產生數千萬個錯誤答案。超過一半的正確回覆也引用了並未完全支撐其主張的來源,而 Google 則稱該研究「嚴重有缺陷」。

在 Google 規模下,數字到底真正代表什麼

Oumi 分析了 10 月由 Gemini 2 回答、以及 2 月由 Gemini 3 回答的 4,326 次搜尋,發現 Gemini 2 的準確率為 85%,而 Gemini 3 進一步提升到 91%。就個別情況而言,這些對生成式 AI 系統而言都是站得住腳的數字。

挑戰在於「規模」。以 Google 報告的每年 5 兆+ 次搜尋速度計算,這樣的數學會呈現出令人擔憂的畫面:

· ~每小時產生 1,400 萬個不準確的 AI 回覆

· ~每分鐘送出 230,000 個錯誤答案

· ~在高峰使用時,每秒產生 4,000 個錯誤

規模論點重新定義了整場準確度辯論:即使只有很小的錯誤率,只要被用在一個供數十億人使用的系統上,在絕對層面就會變成大規模的錯誤資訊問題。

「落地引用」問題:經不起考驗的引文

除了單純的準確率數字之外,Oumi 也指出了另一個——而且可以說更令人不安的——獨立問題:「grounding」:AI Overviews 中引用的來源,是否真的支撐了正在提出的主張。研究結果顯示:Gemini 3 雖然比前一代更準確,但在提供真正能支撐其論述的引用方面,明顯更糟。

在 Gemini 2 下,37% 的正確答案是沒有「落地引用」的。這個比例在 Gemini 3 下上升到 56%——也就是說,多數的正確回覆仍然連結到未能完整支撐所提供資訊的來源。這會造成驗證上的問題:使用者若點擊後想要「確認」答案,可能會發現該來源說的內容與 AI 的說法不同,或內容不完整。

在針對跨越 5,380 個被引用參考資料的溯源分析中,同樣也引發了對平台的疑慮。Facebook 在整體被引用來源中排名第二,而 Reddit 則排在第四。這兩者都是社群媒體平台,使用者生成且未經驗證的內容十分普遍——在由 AI 彙整的搜尋結果中出現在最上方,會讓它們獲得不具備的權威性。Facebook 在 5% 的正確回覆與 7% 的不準確回覆中被引用,這顯示出一個值得持續監測的模式。

Google 的防禦:方法學疑問與內部數據

Google 並沒有在受到反擊的情況下直接接受這份研究的結論。發言人 Ned Adriance 對這項分析的核心設計提出質疑:Oumi 是使用其自家 AI 模型來評估 Google 的 AI 準確度,這就引入了方法學上的「循環」——如果 Oumi 的模型也可能出錯,那麼它對 Google 錯誤的判斷本身也可能不可靠。

「這項研究有很嚴重的漏洞,」Adriance 說。「它並沒有反映人們在 Google 上實際正在搜尋的內容。」

Google 也發布了其自行的對照資料。該公司表示:獨立運作的 Gemini 3——在不使用 AI Overviews 所提供的額外脈絡的情況下——有 28% 的時間不準確;這意味著 AI Overviews 系統相較於單純的模型輸出,確實帶來了有意義的準確度提升。公司也維持所有 AI Overviews 底部一如既往的標準免責聲明:「AI 可能會犯錯,所以請再核對一次你的回覆。」

FAQ

Google 的 AI Overviews 是什麼?它們是什麼時候推出的?

Google 的 AI Overviews 是由 AI 生成的摘要,會出現在 Google 搜尋結果的最上方;它會彙整對使用者查詢的回答,並引用能支撐這些答案的網頁來源。該功能由 Google 的 Gemini 模型提供支援,於 2024 年被廣泛推出,如今已在全球數十億次搜尋中出現。它們不同於標準搜尋結果,因為它們產生的是文字,而不是僅僅列出連結。

在這個脈絡下,「未經落地引用(ungrounded)」是什麼意思?為什麼這很重要?

當一則 AI Overviews 引用的網站實際上並不會驗證或完整支撐摘要中呈現的資訊時,該 AI Overviews 就會被視為「未經落地引用」。這會造成問題,因為如果使用者試圖透過點擊所引用的來源來核查某個主張,可能會發現該來源與 AI 的說法相互矛盾、只部分支撐,或與 AI 的陳述完全無關——這會削弱系統作為可靠資訊工具的角色,也會讓獨立驗證變得更困難。

考量這些準確度疑慮,用戶應該如何看待 AI Overviews?

Google 本身也透過其內建免責聲明承認這項限制:AI 可能會犯錯。對於風險較低的查詢,AI Overviews 可能提供一個有用的起點。至於健康、法律、財務或事實性的決策,使用者應該透過權威的主要來源自行獨立驗證資訊,而不是僅依賴由 AI 彙整出來的摘要。建議直接檢查所引用的來源——而不是直接接受 AI 對其內容的描述。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言