Google AI Огляди помиляються 1 раз на 10 разів, мільйони помилок щогодини

MarketWhisper

AI Overviews

Нове дослідження Oumi, повідомлене The New York Times, виявило, що AI Overviews від Google неточні у 9% випадків — тобто на масштабі Google це перетворюється на десятки мільйонів неправильних відповідей на годину. Понад половина точних відповідей також посилалися на джерела, які не повністю підтверджують свої твердження, тоді як Google назвав це дослідження «серйозно хибним».

Що насправді означають цифри в масштабі Google

Oumi проаналізувала 4,326 запитів, на які відповідав Gemini 2 у жовтні та Gemini 3 у лютому, з’ясувавши, що Gemini 2 досяг точності 85%, тоді як Gemini 3 покращився до 91%. Окремо це — обґрунтовані показники для системи генеративного ШІ.

Проблема — у масштабі. За заявленою Google швидкістю 5 трильйонів+ пошуків на рік, математика малює тривожну картину:

· ~14 мільйонів неточних відповідей ШІ генерується щогодини

· ~230,000 неправильних відповідей надається щохвилини

· ~4,000 помилок з’являється щосекунди під час пікового використання

Аргумент про масштаб переосмислює весь спір про точність: навіть невелика частка помилок, коли система використовується мільярдами людей, у абсолютних величинах перетворюється на проблему масштабної дезінформації.

Проблема «заземлення»: цитати, які не витримують перевірку

Крім самих цифр точності, Oumi визначила окрему — і, ймовірно, ще більш тривожну — проблему: «grounding» — чи підтримують процитовані в AI Overviews джерела твердження, які там робляться. Результати показують, що Gemini 3, попри те що він точніший за попередника, значно гірше надає по-справжньому підтримувальні цитати.

За Gemini 2 37% правильних відповідей були незаземленими. Цей показник зріс до 56% за Gemini 3 — тобто більшість точних відповідей усе ще посилалися на джерела, які не повністю підкріплюють надану інформацію. Це створює проблему верифікації: користувачі, які переходять за посиланням «щоб підтвердити» відповідь, можуть виявити, що джерело говорить щось інше або неповне.

Аналіз джерел серед 5,380 процитованих посилань також підняв питання щодо платформи. Facebook посів друге місце за загальною кількістю цитувань, тоді як Reddit розмістився на четвертому. Це соціальні медіа-платформи, де поширений контент, створений користувачами, який не верифікований — потрапляння на верх AI-зіставленого результату пошуку надає їм незаслужений авторитет. Facebook цитували у 5% точних відповідей і в 7% неточних, що вказує на закономірність, за якою варто стежити.

Захист Google: питання до методології та внутрішні дані

Google не прийняв висновки дослідження без заперечень. Представник Нед Адріанс поставив під сумнів базовий дизайн аналізу: Oumi оцінювала точність AI Google, використовуючи власну AI-модель, що створює методологічну циклічність — якщо модель Oumi теж може помилятися, то її оцінки помилок Google можуть бути самі по собі ненадійними.

«У цього дослідження є серйозні прогалини», — сказав Адріанс. «Воно не відображає те, що люди насправді шукають у Google».

Google також опублікував власні порівняльні дані. Компанія заявила, що автономний Gemini 3 — який працює без додаткового контексту, наданого AI Overviews — був неточним у 28% випадків, що свідчить: система AI Overviews забезпечує суттєві покращення точності порівняно з «сирим» виводом моделі. Компанія зберігає стандартне застереження внизу всіх AI Overviews: «AI може помилятися, тож двічі перевіряйте відповіді».

FAQ

Що таке Google AI Overviews і коли їх було запроваджено?

Google AI Overviews — це згенеровані ШІ підсумки, які з’являються у верхній частині результатів пошуку Google, поєднуючи відповіді на запити користувачів і цитуючи підтримувальні вебджерела. Працюючи на основі моделей Gemini від Google, функцію було широко запроваджено в 2024 році, і тепер вона з’являється у мільярдах пошуків по всьому світу. Вони відрізняються від стандартних результатів пошуку: ці функції генерують текст, а не просто виводять списки посилань.

Що означає «незаземлені» в цьому контексті і чому це важливо?

AI Overview вважається «незаземленим», коли сайти, на які він посилається, насправді не верифікують або не повністю підтримують інформацію, представлену в підсумку. Це проблематично, бо користувачі, які намагаються перевірити твердження, натиснувши на процитоване джерело, можуть виявити, що джерело суперечить сказаному ШІ, частково його підтримує або взагалі не має відношення до заяви AI — підриваючи роль системи як надійного інструменту інформації та ускладнюючи незалежну верифікацію.

Як користувачам слід підходити до AI Overviews з огляду на ці застереження щодо точності?

Google сам визнає це обмеження вбудованим застереженням, що AI може помилятися. Для запитів із низькими ставками AI Overviews може бути корисною відправною точкою. Для рішень у галузі здоров’я, права, фінансів або для фактологічних рішень користувачам слід незалежно верифікувати інформацію через авторитетні, первинні джерела, а не покладатися лише на підсумки, згенеровані AI. Перевіряти процитовані джерела напряму — а не приймати характеристику AI — доцільно.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів