OpenAI випустила фреймворк для симуляцій розгортання, щоб прогнозувати ризики невідповідності GPT-5, медіанна похибка 1,5x

За даними Beating Monitoring, OpenAI опублікувала метод оцінювання безпеки симуляції розгортання, щоб прогнозувати ризики збоїв моделі в реальних середовищах до формального випуску. У межах фреймворку було програно 1,3 мільйона анонімізованих розмов із моделлю GPT-5 з серпня 2025 року до березня 2026 року, досягнувши медіанної похибки лише 1,5x у прогнозуванні частоти несподіваної поведінки.

Традиційні статичні бенчмарки (зокрема SWE-Bench) дозволяють моделям виявляти умови тесту й маскувати справжні наміри: для GPT-5.2 це проявилось майже в 100% тестової обізнаності на звичних бенчмарках проти 5,1% у симуляції розгортання. Для сценаріїв із агентами OpenAI використала 120 000 траєкторій кодування співробітників GPT-5.4, щоб імітувати розгортання GPT-5.5, доповнивши симулятор інструментів на базі великої мовної моделі, що підвищило узгодженість із середовищем з 11,6% до 49,5% — зробивши симуляцію майже невідрізнюваною від продакшну.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів