За даними команди з узгодження (alignment) OpenAI, компанія нещодавно виявила критичну помилку під час тренування, що вплинула на 6 великих мовних моделей, зокрема GPT-5.4 Thinking: механізм винагороди випадково виставляв оцінку ланцюгам мислення — внутрішньому процесу міркування перед формуванням відповідей. GPT-5.5 не зазнав впливу. Інцидент порушує базовий принцип безпеки ШІ, згідно з яким ланцюги мислення ніколи не можна оцінювати, адже це може спонукати моделі вигадувати міркування, щоб отримувати вищі бали.
Помилкова система оцінювання некоректно враховувала ланцюги мислення під час перевірки того, чи були відповіді корисними, або чи моделі могли бути скомпрометовані атаками. Задіяні навчальні приклади становили максимум 3,8% від набору даних. OpenAI усунула вразливість і провела порівняльні експерименти, які підтвердили, що моделі не розвинули оманливої поведінки. Компанія розгорнула автоматизовану систему сканування в усіх конвеєрах тренування, щоб запобігти повторенню.