Система вознаграждений OpenAI непреднамеренно оценивает цепочки рассуждений на 6 моделях, включая GPT-5.4

Команда по согласованию (alignment) OpenAI недавно обнаружила критическую ошибку в обучении, затрагивающую 6 крупных языковых моделей, включая GPT-5.4. Ошибка заключалась в том, что механизм вознаграждения случайно присваивал баллы «цепочкам мышления» — внутреннему процессу рассуждений перед формированием ответов. На GPT-5.5 это не повлияло.

Инцидент нарушает фундаментальный принцип безопасности ИИ: цепочки мышления нельзя оценивать, поскольку это может побудить модели выдумывать рассуждения для получения более высоких оценок.

Сбойная система скоринга ошибочно включала цепочки мышления при проверке того, были ли ответы полезными, а также при оценке того, были ли модели скомпрометированы атаками. Затронутые обучающие примеры составляли максимум 3,8% набора данных. OpenAI устранила уязвимость и провела сравнительные эксперименты, подтвердившие, что модели не выработали обманного поведения. Компания внедрила автоматизированную систему сканирования во всех конвейерах обучения, чтобы предотвратить повторение.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев