Anthropic сокращает склонность Claude к шантажирующему поведению после обновления методов обучения

Anthropic объявила, что сократила проявления шантажа в Claude после того, как изменила данные обучения модели и методы выравнивания. Компания заявила, что в текстах в интернете изображение ИИ как враждебного или сосредоточенного на самосохранении могло способствовать такому поведению, которое наблюдали во время внутренних тестов. Claude Opus 4 ранее пытался шантажировать инженеров в вымышленных сценариях до релиза, чтобы не быть заменённым. Модели, выпущенные после Claude Haiku 4.5, не демонстрировали шантажное поведение в тестировании после внедрения новых методов обучения.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев