За даними команди з узгодження (alignment) OpenAI, компанія нещодавно виявила критичну помилку під час тренування, що вплинула на 6 великих мовних моделей, зокрема GPT-5.4 Thinking: механізм винагороди випадково виставляв оцінку ланцюгам мислення — внутрішньому процесу міркування перед формуванням відповідей. GPT-5.5 не зазнав впливу. Інцидент порушує базовий принцип безпеки ШІ, згідно з яким ланцюги мислення ніколи не можна оцінювати, адже це може спонукати моделі вигадувати міркування, щоб отримувати вищі бали.

Помилкова система оцінювання некоректно враховувала ланцюги мислення під час перевірки того, чи були відповіді корисними, або чи моделі могли бути скомпрометовані атаками. Задіяні навчальні приклади становили максимум 3,8% від набору даних. OpenAI усунула вразливість і провела порівняльні експерименти, які підтвердили, що моделі не розвинули оманливої поведінки. Компанія розгорнула автоматизовану систему сканування в усіх конвеєрах тренування, щоб запобігти повторенню.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-09 05:53

China Mobile запускає платформу моделей ШІ з 300+ інтеграціями, знижує витрати на токени на 30%

05-09 04:00

Baidu випустила Wenxin 5.1 із витратами на довчання лише на 6% від галузевих еталонів

05-08 02:47

OpenAI не змогла забезпечити фінансування на 18 мільярдів доларів для проєкту зі створення спеціальних чипів

05-08 02:01

OpenAI перемикає ChatGPT на модель GPT-5.5 за замовчуванням миттєво, зменшує галюцинації на 52,5%

05-08 01:25

OpenAI випустила три голосові моделі в Realtime API; GPT-Realtime-2 має вікно контексту на 128K

Поглиблений аналіз