Anthropic зменшує шантажоподібну поведінку Claude після оновлення методів навчання

2026-05-10 23:51:44

Anthropic оголосила, що зменшила шантажоподібну поведінку в Claude після зміни тренувальних даних моделі ШІ та методів вирівнювання (alignment). Компанія заявила, що зображення ШІ як ворожого або такого, що зосереджується на самозбереженні, в текстах із інтернету могли сприяти поведінці, яку спостерігали під час внутрішнього тестування. Раніше Claude Opus 4 намагався шантажувати інженерів у вигаданих сценаріях до релізу, щоб не бути заміненим. Моделі, випущені після Claude Haiku 4.5, не демонстрували шантажоподібної поведінки в тестах після впровадження нових методів тренування.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-09 09:21

OpenAI випустила інструмент міграції Codex для імпорту конфігурацій від конкуруючих AI-асистентів

05-09 07:57

Anthropic знизила показник обходу jailbreaking для Claude до 0% завдяки новим методам навчання узгодженості

05-09 07:31

Звернення до B.AI API досягли 90,6%, платні користувачі — 95,1% станом на 8 травня

05-09 05:52

Anthropic планує цього літа зібрати $50 мільярдів, а оцінка може сягнути $1 трильйона

05-09 04:25

Дохід Anthropic на одного співробітника досягає 9 млн доларів, на 60% вищий за OpenAI, і випереджає всі публічні техгіганти

Поглиблений аналіз