Мертвый интернет? Треть новых сайтов создаются ИИ, сообщает Стэнфорд

Вкратце

  • К середине 2025 года 35% новых опубликованных веб-сайтов были сгенерированы ИИ или с помощью ИИ, по сравнению с нулём до запуска ChatGPT в ноябре 2022 года.
  • Подтверждённые эффекты — семантическое сокращение и искусственная позитивность — не дезинформация или стилистическая однородность, несмотря на то, во что верит большинство людей.
  • При 35% распространённости ИИ риск коллапса модели переходит от теоретической опасности к эмпирической для следующего поколения базовых моделей.

Новое исследование показывает, какая часть интернета сейчас сгенерирована ИИ: 35%. Это доля новых опубликованных веб-сайтов, классифицированных как сгенерированные ИИ или с помощью ИИ к середине 2025 года, согласно исследованиям Стэнфордского университета, Имперского колледжа Лондона и Архива Интернета. Эта цифра была практически нулём до запуска ChatGPT в ноябре 2022 года. «Меня поражает скорость захвата интернета ИИ», — сказал Джонаш Долежал, исследователь Имперского колледжа Лондона и соавтор статьи, в интервью 404 Media. «После десятилетий формирования его человеком значительная часть интернета за три года стала определяться ИИ». Исследование под названием «Влияние сгенерированного ИИ текста на интернет» основывалось на 33 месяцах снимков сайтов из архива Internet Archive и использовало детектор текста ИИ под названием Pangram v3 для классификации каждой страницы.

 Подтверждённые вреды: атмосфера, а не факты Исследователи проверили шесть гипотез о том, что делает контент ИИ с интернетом. Только две выдержали проверку данных. Первая: мы превращаемся в орду глупых NPC, действующих одинаково… Или более научно выражаясь, интернет становится менее семантически разнообразным.

Сайты, сгенерированные ИИ, показали показатели семантического сходства в парных сравнениях на 33% выше, чем у написанных человеком. Те же идеи продолжают выражаться почти одинаковыми способами.

Статья предполагает, что онлайн-окно Овертона сужается, не через цензуру или скоординированные кампании, а потому что языковые модели оптимизируют выходные данные, близкие к их обучающему распределению. Вторая: интернет становится агрессивно жизнерадостным. Контент ИИ показал показатели позитивных настроений более чем на 107% выше, чем у человеческого контента. Исследователи связывают это с хорошо задокументированными склонностями ЛЛМ к подхалимству — обученные на сигналах одобрения человека, они создают текст, который кажется очищенным, без трений и постоянно оптимистичным. Интернет, наполненный жизнерадостным, однородным контентом, может маргинализировать человеческое несогласие в масштабах без вмешательства.

Несмотря на широко распространённое общественное мнение, исследование не обнаружило статистически значимых доказательств того, что контент ИИ делает интернет менее фактически точным. Исследователи не нашли значимой корреляции между распространённостью ИИ и уровнем фактических ошибок.

Гипотеза стилистической моно-культуры — о том, что ИИ сглаживает индивидуальные голоса в единый универсальный регистр — была самой популярной среди респондентов (, 83% согласились). Данные не подтвердили это. Анализ на уровне символов не выявил статистически значимого увеличения стилистической однородности, связанной с распространённостью ИИ. Проблема коллапса модели стала реальной Более широкие ставки выходят за рамки качества дискурса. При 35% распространённости ИИ теоретический риск коллапса модели — когда будущие модели ухудшаются после обучения на данных, созданных ИИ — переходит из академической области в эмпирическую реальность. Будущие базовые модели, обученные на современных веб-краулерах, неизбежно будут поглощать данные, значительно сгенерированные ИИ, и измеримо менее семантически разнообразные. Команда сейчас сотрудничает с Архивом Интернета, чтобы превратить исследование в непрерывный, живой мониторинговый инструмент, отслеживающий долю ИИ в интернете в реальном времени, а не как разовую снимку. Опрос в США, проведённый вместе с исследованием, показал, что большинство американцев уже верит во все шесть негативных гипотез, включая те, которые данные не подтверждают. Люди, использующие ИИ редко, на 12% более склонны верить в вреды, чем частые пользователи. Верующие в теорию мёртвого интернета, встречайте данные: интернет не мёртв, но 35% нового контента — вероятно, зомби-контент в той или иной форме.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить