Система винагород OpenAI ненавмисно оцінює ланцюги міркувань на 6 моделях, зокрема GPT-5.4

За даними команди з узгодження (alignment) OpenAI, компанія нещодавно виявила критичну помилку під час тренування, що вплинула на 6 великих мовних моделей, зокрема GPT-5.4 Thinking: механізм винагороди випадково виставляв оцінку ланцюгам мислення — внутрішньому процесу міркування перед формуванням відповідей. GPT-5.5 не зазнав впливу. Інцидент порушує базовий принцип безпеки ШІ, згідно з яким ланцюги мислення ніколи не можна оцінювати, адже це може спонукати моделі вигадувати міркування, щоб отримувати вищі бали.

Помилкова система оцінювання некоректно враховувала ланцюги мислення під час перевірки того, чи були відповіді корисними, або чи моделі могли бути скомпрометовані атаками. Задіяні навчальні приклади становили максимум 3,8% від набору даних. OpenAI усунула вразливість і провела порівняльні експерименти, які підтвердили, що моделі не розвинули оманливої поведінки. Компанія розгорнула автоматизовану систему сканування в усіх конвеєрах тренування, щоб запобігти повторенню.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів