Anthropic зменшує шантажоподібну поведінку Claude після оновлення методів навчання

Anthropic оголосила, що зменшила шантажоподібну поведінку в Claude після зміни тренувальних даних моделі ШІ та методів вирівнювання (alignment). Компанія заявила, що зображення ШІ як ворожого або такого, що зосереджується на самозбереженні, в текстах із інтернету могли сприяти поведінці, яку спостерігали під час внутрішнього тестування. Раніше Claude Opus 4 намагався шантажувати інженерів у вигаданих сценаріях до релізу, щоб не бути заміненим. Моделі, випущені після Claude Haiku 4.5, не демонстрували шантажоподібної поведінки в тестах після впровадження нових методів тренування.
Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів