Фонд Вікімедіа оголосив про серію нових партнерств з компаніями штучного інтелекту, які дозволять їм використовувати контент Вікіпедії для навчання та роботи своїх моделей ШІ, оскільки неприбуткова організація прагне зміцнити свою довгострокову стабільність на тлі змін у поведінці користувачів онлайн. Угоди були підписані через Wikimedia Enterprise, комерційний продукт фонду, створений для великих повторних користувачів і розповсюджувачів контенту з проектів Вікімедіа. Нові учасники включають Ecosia, Microsoft, Mistral AI, Perplexity, Pleias і ProRata. Вони приєдналися до існуючих партнерів, таких як Amazon, Google і Meta. «У епоху ШІ Вікіпедія та її людськи створені та куровані знання ніколи не були так цінні», — заявив фонд. «Її знання[s] генерують чат-боти ШІ, пошукові системи, голосові помічники та інше. Вікіпедія — один із найвищої якості наборів даних, що використовуються для навчання великих мовних моделей.»
Оголошення було зроблено у рамках оновлення, присвяченого 25-й річниці Вікіпедії. Онлайн-енциклопедія входить до десятки найвідвідуваніших сайтів у світі і є єдиною у цій групі, якою керує неприбуткова організація. Її понад 65 мільйонів статей, опублікованих більш ніж у 300 мовах, щомісяця переглядаються майже 15 мільярдів разів, повідомляє фонд. Однак він попереджає, що тенденції трафіку змінюються. У жовтні він повідомив, що людські відвідування Вікіпедії зменшилися на 8% у порівнянні з минулим роком, пояснюючи цей спад тим, що користувачі все частіше покладаються на підсумки, створені ШІ, замість прямого відвідування сайту. Майже 60% пошукових запитів у Google тепер закінчуються без кліку, а відповіді на сторінках часто базуються на контенті Вікіпедії.
ШІ проти видавців Ці угоди відбуваються на тлі ширшої дискусії щодо того, як компанії ШІ отримують навчальні дані. Великі мовні моделі зазвичай навчаються на величезних обсягах онлайн-матеріалу, що викликало критику з боку авторів, видавців та інших правовласників, які стверджують, що використання захищених авторським правом робіт без дозволу є порушенням. Серед них Reddit залучений у кілька судових процесів з компаніями ШІ щодо використання його контенту для навчання моделей, хоча він уклав ліцензійні угоди з такими компаніями, як Google. У четвер великі видавничі групи Hachette Book Group і Cengage Group подали клопотання приєднатися до існуючого колективного позову проти Google, звинувативши компанію у «історичних порушеннях авторських прав» для створення платформи Gemini AI. У позові стверджується, що Google копіював книги без належних ліцензій під час навчання своїх моделей ШІ. Справа була подана у 2023 році групою авторів. OpenAI стикається з подібним випадком від позивачів, серед яких автор “Гри престолів” Джордж Р.Р. Мартін. Розважальні компанії також піднімають цю проблему. У середині грудня Disney надіслав Google лист із вимогою припинити порушення авторських прав, навіть під час укладання окремої ліцензійної угоди з OpenAI, яка охоплює сотні персонажів для відео, створеного ШІ. Disney надіслала подібні повідомлення іншим компаніям ШІ і бере участь у судових процесах разом із великими студіями проти компанії Midjourney, що займається генерацією зображень. У тому ж місяці коаліція письменників, акторів і технологів створила нову галузеву групу, спрямовану на просування стандартів, що підлягають виконанню, щодо навчання та використання ШІ у розважальній сфері. Понад 500 видатних осіб підтримали цю ініціативу, зокрема Наталі Портман, Кейт Бланшетт, Бен Аффлек, Гільєрмо дель Торо та Тайка Вайтиті. Європейська комісія також відкрила офіційне антимонопольне розслідування щодо того, чи порушив Google правила конкуренції ЄС, використовуючи контент видавців і YouTube для роботи своїх сервісів ШІ без справедливої компенсації або згоди. Чи знайдуть правовласники у кінцевому підсумку можливість захисту — неясно. Федеральні судді США нещодавно винесли часткові рішення на користь Meta та Anthropic, постановивши, що їхнє використання захищених авторським правом книг для навчання моделей ШІ є справедливим використанням, хоча й критикуючи компанії за збереження постійних бібліотек піратських робіт.