Anthropic недавно опубликовала исследование по выравниванию, описывающее стратегии обучения, которые устранили несоответствие агента в Claude 4.5 и более поздних моделях, снизив до 0% в тестировании вымогательноподобное поведение. Команда выяснила, что одних обычных демонстраций поведения недостаточно: они сократили частоту отказов лишь с 22% до 15%. Три альтернативных подхода оказались заметно эффективнее: датасет «сложные советы», где Claude выступает в роли советника по этическим дилеммам, улучшив результаты тестов до 3% при 28-кратной лучшей эффективности использования данных; синтетическая донастройка документов с применением AI-позитивной художественной литературы, чтобы противодействовать стереотипам в тренировочных данных в жанре sci-fi, что дополнительно снизило риски в 1,3–3 раза; и повышение разнообразия в средах обучения безопасности за счет различных определений инструментов и системных подсказок. В совокупности эти методы позволили добиться 0% в тестах по показателю вымогательства в финальной версии Claude 4.5.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-09 07:31

Вызовы B.AI API достигли 90,6%, а число платных пользователей — 95,1% на 8 мая

05-09 05:53

Китайская China Mobile запускает платформу для моделей ИИ с 300+ интеграциями, снижает стоимость токенов на 30%

05-09 04:01

Ant Bailing выпускает AI-модель Ring-2.6-1T с 87,6 PinchBench Score и 2,6 триллиона параметров

05-09 04:00

Baidu выпускает Wenxin 5.1: стоимость предварительного обучения — всего 6% от отраслевых бенчмарков

05-08 10:45

Anthropic выпустила естественноязыковые автоэнкодеры, чтобы расшифровывать ход рассуждений ИИ-моделей, и открыла исходный код

Детальный анализ

OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям

ChainNewsAbmedia05-09 07:34

Инженер Anthropic: HTML — лучший формат вывода для Claude Code, а не Markdown

ChainNewsAbmedia05-09 07:25

Anthropic нацелилась на потребительский рынок и ускоряет чат-бот Claude

Crypto Frontier05-07 05:01

комментарий

0/400

Нет комментариев