Вона написала 14 сторінок дисертації, яку звільнили з Google, п’ять років потому всі пророчества щодо ризиків ШІ збулися.

2020 рік, Тимніт Гебру була звільнена з Google за відмову відкликати статтю, яка попереджала про ризики систем штучного інтелекту. П’ять років потому, п’ять основних пророчих передбачень цієї 14-сторінкової статті — галюцинації, упередження, вуглецевий слід, забруднення даних, централізація мов — всі збулися.
(Передісторія: Чому AI та чат-боти ChatGPT стають гіршими? Дослідження Nature: збільшення моделей без допомоги)
(Додатковий контекст: Звіт Стенфордського університету: споживання електроенергії AI становить половину від майнінгу біткоїнів, різниця між моделями США та Китаю — лише 2,7%)

Зміст цієї статті

Перемикач

  • 14 сторінок, п’ять системних ризиків
  • П’ять пророчих передбачень, п’ять реальних відповідей
  • Найглибше пророчество, яке сталося з перших днів

14-сторінкова академічна стаття позбавила її роботи… У грудні 2020 року, Тимніт Гебру ще була у відпустці, коли отримала лист електронною поштою, що її звільнили з Google. Тоді вона була співкерівником етичної команди AI у Google.

Причиною її звільнення стало те, що Google вимагав від неї зняти або видалити статтю з авторським ім’ям співробітника. Ця стаття була опублікована через три місяці після її відходу, у березні 2021 року, на конференції ACM FAccT. Назва — «Про небезпеку випадкових папуг: чи занадто великі мовні моделі?», у шести співавторів четверо — співробітники Google, ще один — під псевдонімом «Shmargaret Shmitchell», справжнє ім’я — Margaret Mitchell, яка згодом також була звільнена з Google.

П’ять років потому, оглядаючи назад, кожне з основних попереджень цієї статті знайшло своє підтвердження у реальності.

14 сторінок, п’ять системних ризиків

Основна теза статті про «випадкових папуг» — це те, що великі мовні моделі (LLM) мають п’ять системних ризиків у структурі: галюцинації та нерозуміння, посилення упереджень, екологічний слід, неможливість перевірки навчальних даних, а також централізація мови, що призводить до деградації мов з низьким ресурсним забезпеченням. Але найглибша ідея — це причина, чому ці п’ять ризиків важко вирішити.

У статті чітко зазначено: компанії, що створюють LLM, мають фінансові та конкурентні стимули, які за структурою не дозволяють «безпека та етика» гальмувати запуск продукту. Простими словами, за умов сильної конкуренції та високого капітального тиску будь-яка компанія схильна швидше запускати продукт, ніж забезпечувати його безпеку.

Сам факт звільнення Гебру — найяскравіше підтвердження цього. Вона представила дослідження з посиланнями; відповідь Google — вимога зняти її ім’я або відкликати статтю. Вона відмовилася, і під час відпустки отримала повідомлення про звільнення.

П’ять пророчих передбачень, п’ять реальних відповідей

Передбачення 1: Вільне, але без розуміння

У 2021 році стаття описала явище, яке згодом назвали «галюцинаціями»: LLM просто ймовірнісно поєднує мовні форми, «не маючи жодного значущого посилання». Це звучить логічно, але не означає, що так і є — і саме з цим стикаються всі користувачі AI сьогодні.

Передбачення 2: Посилення упереджень

Стаття попереджала, що моделі, навчені на історичних даних, систематично копіюють упередження. Наприклад, AI-інструмент для рекрутингу від Amazon 2014 року був відкинутий у 2018 через системну дискримінацію жінок-кандидатів: модель навчилася з історичних резюме, що переважали чоловіки, і автоматично знижувала оцінки резюме з «women’s».

Дослідження Obermeyer та ін. 2019 року, опубліковане у «Science», показало, що широко використовуваний медичний алгоритм для оцінки ризику замінює «серйозність хвороби» на «медичні витрати», що призводить до того, що чорні пацієнти з однаковим ризиком мають більш важкі захворювання; після корекції кількість чорних пацієнтів, яких потрібно додатково лікувати, зросла з 17,7% до 46,5%.

Передбачення 3: Екологічний слід

Стаття цитує дослідження Strubell 2019 року, яке попереджало, що вартість тренування моделей недооцінена. Це пізніше поширилося як «навчання однієї моделі — це викиди, рівні 5 автомобілів за все життя», але потрібно уточнити: це цифра для екстремального сценарію пошуку нейронної архітектури (NAS), близько 284 тонн CO₂e, і не для кожної моделі.

Реальні наслідки ще гірші. Звіт Google за 2024 рік показує, що у 2023 році викиди склали близько 14,3 мільйонів тонн CO₂e, що на 48% більше за 2019 рік. Основна причина — зростання енергоспоживання дата-центрів через AI, що загрожує досягненню цілей Google щодо нейтральності вуглецю до 2030 року.

Передбачення 4: Неможливість перевірки даних

Стаття попереджала, що через величезний масштаб даних у мережі, шкідливий контент може проникати без виявлення. У грудні 2023 року Стенфордський інститут виявив у датасеті LAION-5B 3,226 підозрілих випадків дитячої сексуальної експлуатації (CSAM), з них 1,008 підтверджено зовнішніми організаціями. LAION-5B — відкритий датасет з 5,8 мільярдами пар зображень та текстів, який використовувався для тренування Stable Diffusion. Після викриття його швидко зняли з публічного доступу. Чим більший масштаб, тим більше сліпих зон.

Передбачення 5: Централізація мови

Стаття вказувала, що домінування англійської мови у корпусах призводить до мовної нерівності. Це передбачення згодом породило хибну тезу: «57% нових англомовних веб-сторінок — AI-згенеровані», що неправда. Дослідження Thompson 2024 року аналізувало 6,38 мільярдів речень у веб-датасеті і виявило, що 57,1% — це багатомовні паралельні колекції, ймовірно, машинний переклад низької якості, особливо у мовах з низьким ресурсним забезпеченням.

Ситуація з мовами з низьким ресурсом — не лише ігнорування, а й забруднення низькоякісним машинним перекладом, і саме це було основним пророчим попередженням Гебру.

Найглибше пророчество, яке збулося з перших днів

П’ять пророчих передбачень — кожне знайшло підтвердження у реальності, від 2018 до 2024 року. Але найголовніше — не те, що AI починає давати проблеми, а те, що вся система спроектована так, щоб не могла самовідновлюватися.

Мотивація визначає поведінку. Коли конкуренція вимагає швидкого запуску, а публічні безпекові зауваження можуть зупинити команду, раціональним вибором стає мовчання. Випадок Гебру залишив чіткий сигнал для AI-спільноти: публічно ставити під сумнів безпеку може зруйнувати кар’єру. Цей ефект «цикади» — і є механізм, про який попереджала стаття.

Головне не те, що вона вгадала кожну деталь. Головне — що описана нею система, де конкуренція переважає етику, масштаб — перевірку, швидкість — безпеку, — вже з перших днів працює так. І саме це найглибше пророчество, яке з моменту отримання листа про звільнення вже підтвердилося.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено