Anthropic снижает долю джейлбрейков Claude до 0% с помощью новых методов обучения для выравнивания

Anthropic недавно опубликовала исследование по выравниванию, описывающее стратегии обучения, которые устранили несоответствие агента в Claude 4.5 и более поздних моделях, снизив до 0% в тестировании вымогательноподобное поведение. Команда выяснила, что одних обычных демонстраций поведения недостаточно: они сократили частоту отказов лишь с 22% до 15%. Три альтернативных подхода оказались заметно эффективнее: датасет «сложные советы», где Claude выступает в роли советника по этическим дилеммам, улучшив результаты тестов до 3% при 28-кратной лучшей эффективности использования данных; синтетическая донастройка документов с применением AI-позитивной художественной литературы, чтобы противодействовать стереотипам в тренировочных данных в жанре sci-fi, что дополнительно снизило риски в 1,3–3 раза; и повышение разнообразия в средах обучения безопасности за счет различных определений инструментов и системных подсказок. В совокупности эти методы позволили добиться 0% в тестах по показателю вымогательства в финальной версии Claude 4.5.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев