
У грудні 2020 року Тимніт Ґебру (тоді спільна відповідальна за команду етики в Google з AI) під час відпустки отримала email, у якому повідомлялося, що її звільнили з Google; причина полягала в тому, що Google вимагав від неї прибрати або зняти співробітницьке зазначення з наукових робіт у співавторстві, а вона відмовилася. Робота висунула галюцинації та нерозуміння, підсилення упереджень, екологічні витрати, неможливість перевірити навчальні дані, мовну централізацію — і через п’ять років у реальному світі знайшли підтвердження для кожного пункту.
Галюцинації та нерозуміння: у 2021 році в роботі описали явище, яке згодом назвали «галюцинаціями». Йдеться про те, що LLM просто за ймовірностями «складає» мовні форми, «не маючи жодного посилання на значення». Ця проблема стала відомим недоліком усіх провідних систем ШІ та підтверджувалася в багатьох незалежних академічних оцінюваннях.
Підсилення упереджень: інструмент Amazon для найму на базі AI, розроблений із 2014 року, у 2018 році припинили, після того як з’ясувалося, що система системно дискримінує кандидаток-жінок; модель навчилася оцінювальних критеріїв, упереджених на користь чоловіків, із історичних резюме, де чоловіків було більше. Дослідження Obermeyer та співавт., опубліковане в 2019 році в Science, розкрило: поширений медичний алгоритм ризику використовує замість «тяжкості стану» «медичні витрати», через що за однакового рівня оцінки ризику темношкірі пацієнти мали фактично більш тяжкий стан; дослідження підтвердило, що після корекції частка темношкірих пацієнтів, яких позначатимуть як таких, що потребують додаткового догляду, зросте з 17,7% до 46,5%.
Екологічні витрати: у екологічному звіті Google за 2024 рік повідомили, що в 2023 році викиди парникових газів становили близько 14,30 млн тонн CO₂e, що на 48% більше за базову лінію 2019 року. Google підтвердив, що основна причина — різке зростання електроспоживання дата-центрів, яке спричинив AI, і це напряму загрожує цілі Google щодо вуглецевої нейтральності до 2030 року.
Неможливість перевірити навчальні дані: у грудні 2023 року Стенфордська мережна обсерваторія під час аналізу набору даних LAION-5B (що містить 5,85 млрд пар зображення-текст і раніше використовувався для навчання Stable Diffusion) виявила 3 226 підозрілих матеріалів із сексуальним насильством щодо дітей (CSAM), з яких 1 008 були підтверджені зовнішніми організаціями; одразу після цього LAION-5B прибрали.
Мовна централізація: дослідження Thompson та співавт. за 2024 рік проаналізувало інтернет-корпус із 6,38 млрд речень і виявило, що 57,1% речень належать до наборів багатомовних паралельних фраз — тобто дуже ймовірно, що це низькоякісний повторюваний контент, згенерований машинним перекладом; і ця частка значно вища для мов із низькими ресурсами, що означає: мовні корпуси з низькими ресурсами забруднюються низькоякісними продуктами машинного перекладу.
Робота має шість авторів: четверо з них — співробітники Google; коли Ґебру отримала повідомлення про звільнення, вона була у відпустці, а вимога Google полягала в тому, щоб прибрати або зняти співробітницьке зазначення. Після її відмови під час відпустки їй повідомили про рішення про звільнення.
Роботу офіційно опублікували в березні 2021 року. У ній прямо зазначено: компанія, яка створює LLM, структурно не може так вбудувати у фінансові та конкурентні стимули те, щоб «безпека та етика» уповільнювали запуск продукту. Сам факт звільнення Ґебру широко цитують як конкретне підтвердження цього структурного аргументу.
Відповідно до тексту роботи, ключовий меседж має два рівні: перший — технічний, де вказано, що LLM мають п’ять типів системних ризиків: галюцинації, підсилення упереджень, екологічні витрати, неможливість перевірки даних і мовну централізацію. Другий, більш фундаментальний рівень, пояснює, чому ці п’ять ризиків важко вирішити: компанії, які створюють LLM, у конкурентній та фінансовій напрузі структурно тяжіють до того, щоб пріоритетом була швидкість, а не безпека. У процесі рецензування на конференції ACM FAccT роботу прийняли після академічного оцінювання.
Згідно з публічними повідомленнями, інструмент найму Amazon на базі AI розробляли з 2014 року. Модель навчали на історичних резюме з часом, де переважали чоловіки; вона автоматично перейняла упереджений спосіб оцінювання, що призводило до автоматичного зняття балів із резюме з такими словами, як «women's chess club». Цю проблему упереджень виявили у 2018 році, після чого Amazon одразу припинив використання цього інструмента та підтвердив, що його не застосовували для оцінювання реальних кандидатів.
Відповідно до екологічного звіту Google за 2024 рік, у 2023 році викиди парникових газів сягнули приблизно 14,30 млн тонн CO₂e, що на 48% більше за базовий рівень 2019 року. Google прямо зазначає, що головна причина — суттєве зростання електроспоживання дата-центрів, яке спричиняє AI. У поясненнях Google не стверджується, що зростання викидів на 100% спричинене лише AI, але розширення AI-інфраструктури підтверджено як основний фактор, який збільшує показники.
Пов’язані новини
Акції Meta падають більш ніж на 5% на тлі повідомлень про потенційну AI-зовнішню інвестиційну підтримку та можливий продаж акцій
Anthropic закликає до глобального уповільнення розвитку ШІ на тлі ризику рекурсивного самовдосконалення
Broadcom різко впав на 12%, що спричинило розпродаж акцій AI! Тайванська біржа терміново просіла на тисячу пунктів, а біткоїн на мить втратив рівень 63 000
Генеральний директор Google DeepMind прогнозує появу AGI до 2030 року на виступі в Стенфорді
Криза витрат на ШІ підживлює нові порівняння з «доткомовим» бумом