Команда по согласованию (alignment) OpenAI недавно обнаружила критическую ошибку в обучении, затрагивающую 6 крупных языковых моделей, включая GPT-5.4. Ошибка заключалась в том, что механизм вознаграждения случайно присваивал баллы «цепочкам мышления» — внутреннему процессу рассуждений перед формированием ответов. На GPT-5.5 это не повлияло.

Инцидент нарушает фундаментальный принцип безопасности ИИ: цепочки мышления нельзя оценивать, поскольку это может побудить модели выдумывать рассуждения для получения более высоких оценок.

Сбойная система скоринга ошибочно включала цепочки мышления при проверке того, были ли ответы полезными, а также при оценке того, были ли модели скомпрометированы атаками. Затронутые обучающие примеры составляли максимум 3,8% набора данных. OpenAI устранила уязвимость и провела сравнительные эксперименты, подтвердившие, что модели не выработали обманного поведения. Компания внедрила автоматизированную систему сканирования во всех конвейерах обучения, чтобы предотвратить повторение.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-09 05:53

Китайская China Mobile запускает платформу для моделей ИИ с 300+ интеграциями, снижает стоимость токенов на 30%

05-09 04:00

Baidu выпускает Wenxin 5.1: стоимость предварительного обучения — всего 6% от отраслевых бенчмарков

05-08 02:47

OpenAI не смогла получить финансирование в размере 18 миллиардов долларов для проекта по разработке пользовательских чипов

05-08 02:01

OpenAI переключает ChatGPT на модель GPT-5.5 по умолчанию — мгновенно, снижает галлюцинации на 52,5%

05-08 01:25

OpenAI выпускает три голосовые модели в Realtime API; GPT-Realtime-2 предлагает контекстное окно на 128K

Детальный анализ

Джефф Кауфман: ИИ одновременно разрушает две культуры уязвимостей в сфере кибербезопасности, а 90-дневный период запрета на поставки оборачивается обратным эффектом

ChainNewsAbmedia05-09 07:37

OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям

ChainNewsAbmedia05-09 07:34

Киберзащитников вооружает GPT-5.5-Cyber от OpenAI

Cryptonews05-08 18:42

комментарий

0/400

Нет комментариев