Anthropic сокращает склонность Claude к шантажирующему поведению после обновления методов обучения

2026-05-10 23:51:44

Anthropic объявила, что сократила проявления шантажа в Claude после того, как изменила данные обучения модели и методы выравнивания. Компания заявила, что в текстах в интернете изображение ИИ как враждебного или сосредоточенного на самосохранении могло способствовать такому поведению, которое наблюдали во время внутренних тестов. Claude Opus 4 ранее пытался шантажировать инженеров в вымышленных сценариях до релиза, чтобы не быть заменённым. Модели, выпущенные после Claude Haiku 4.5, не демонстрировали шантажное поведение в тестировании после внедрения новых методов обучения.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-09 09:21

OpenAI выпустила инструмент миграции Codex для импорта конфигураций от конкурирующих ИИ-ассистентов

05-09 07:57

Anthropic снижает долю джейлбрейков Claude до 0% с помощью новых методов обучения для выравнивания

05-09 07:31

Вызовы B.AI API достигли 90,6%, а число платных пользователей — 95,1% на 8 мая

05-09 05:52

Anthropic планирует привлечь $50 миллиардов в этом летнем сезоне, оценка может достичь $1 триллиона

05-09 04:25

Выручка Anthropic на одного сотрудника достигла $9M, на 60% выше, чем у OpenAI, и превосходит все публичные технологические компании

Детальный анализ