
Нове дослідження Oumi, повідомлене The New York Times, виявило, що AI Overviews від Google неточні у 9% випадків — тобто на масштабі Google це перетворюється на десятки мільйонів неправильних відповідей на годину. Понад половина точних відповідей також посилалися на джерела, які не повністю підтверджують свої твердження, тоді як Google назвав це дослідження «серйозно хибним».
Oumi проаналізувала 4,326 запитів, на які відповідав Gemini 2 у жовтні та Gemini 3 у лютому, з’ясувавши, що Gemini 2 досяг точності 85%, тоді як Gemini 3 покращився до 91%. Окремо це — обґрунтовані показники для системи генеративного ШІ.
Проблема — у масштабі. За заявленою Google швидкістю 5 трильйонів+ пошуків на рік, математика малює тривожну картину:
· ~14 мільйонів неточних відповідей ШІ генерується щогодини
· ~230,000 неправильних відповідей надається щохвилини
· ~4,000 помилок з’являється щосекунди під час пікового використання
Аргумент про масштаб переосмислює весь спір про точність: навіть невелика частка помилок, коли система використовується мільярдами людей, у абсолютних величинах перетворюється на проблему масштабної дезінформації.
Крім самих цифр точності, Oumi визначила окрему — і, ймовірно, ще більш тривожну — проблему: «grounding» — чи підтримують процитовані в AI Overviews джерела твердження, які там робляться. Результати показують, що Gemini 3, попри те що він точніший за попередника, значно гірше надає по-справжньому підтримувальні цитати.
За Gemini 2 37% правильних відповідей були незаземленими. Цей показник зріс до 56% за Gemini 3 — тобто більшість точних відповідей усе ще посилалися на джерела, які не повністю підкріплюють надану інформацію. Це створює проблему верифікації: користувачі, які переходять за посиланням «щоб підтвердити» відповідь, можуть виявити, що джерело говорить щось інше або неповне.
Аналіз джерел серед 5,380 процитованих посилань також підняв питання щодо платформи. Facebook посів друге місце за загальною кількістю цитувань, тоді як Reddit розмістився на четвертому. Це соціальні медіа-платформи, де поширений контент, створений користувачами, який не верифікований — потрапляння на верх AI-зіставленого результату пошуку надає їм незаслужений авторитет. Facebook цитували у 5% точних відповідей і в 7% неточних, що вказує на закономірність, за якою варто стежити.
Google не прийняв висновки дослідження без заперечень. Представник Нед Адріанс поставив під сумнів базовий дизайн аналізу: Oumi оцінювала точність AI Google, використовуючи власну AI-модель, що створює методологічну циклічність — якщо модель Oumi теж може помилятися, то її оцінки помилок Google можуть бути самі по собі ненадійними.
«У цього дослідження є серйозні прогалини», — сказав Адріанс. «Воно не відображає те, що люди насправді шукають у Google».
Google також опублікував власні порівняльні дані. Компанія заявила, що автономний Gemini 3 — який працює без додаткового контексту, наданого AI Overviews — був неточним у 28% випадків, що свідчить: система AI Overviews забезпечує суттєві покращення точності порівняно з «сирим» виводом моделі. Компанія зберігає стандартне застереження внизу всіх AI Overviews: «AI може помилятися, тож двічі перевіряйте відповіді».
Google AI Overviews — це згенеровані ШІ підсумки, які з’являються у верхній частині результатів пошуку Google, поєднуючи відповіді на запити користувачів і цитуючи підтримувальні вебджерела. Працюючи на основі моделей Gemini від Google, функцію було широко запроваджено в 2024 році, і тепер вона з’являється у мільярдах пошуків по всьому світу. Вони відрізняються від стандартних результатів пошуку: ці функції генерують текст, а не просто виводять списки посилань.
AI Overview вважається «незаземленим», коли сайти, на які він посилається, насправді не верифікують або не повністю підтримують інформацію, представлену в підсумку. Це проблематично, бо користувачі, які намагаються перевірити твердження, натиснувши на процитоване джерело, можуть виявити, що джерело суперечить сказаному ШІ, частково його підтримує або взагалі не має відношення до заяви AI — підриваючи роль системи як надійного інструменту інформації та ускладнюючи незалежну верифікацію.
Google сам визнає це обмеження вбудованим застереженням, що AI може помилятися. Для запитів із низькими ставками AI Overviews може бути корисною відправною точкою. Для рішень у галузі здоров’я, права, фінансів або для фактологічних рішень користувачам слід незалежно верифікувати інформацію через авторитетні, первинні джерела, а не покладатися лише на підсумки, згенеровані AI. Перевіряти процитовані джерела напряму — а не приймати характеристику AI — доцільно.