Anthropic нещодавно опублікував дослідження з узгодження (alignment), яке описує стратегії навчання, що усунули невідповідність (misalignment) агентів у Claude 4.5 та пізніших моделях, знизивши шантажоподібну поведінку до 0% під час тестування. Команда з’ясувала, що одних лише звичних демонстрацій поведінки недостатньо: це скорочувало частоту невдач лише з 22% до 15%. Три альтернативні підходи виявилися значно ефективнішими: набір даних із «складними порадами», де Claude виступає радником у етичних дилемах, покращивши результати тестів до 3% із 28-кратнішою ефективністю використання даних; донавчання синтетичних документів із використанням AI-позитивної художньої літератури, щоб протидіяти стереотипам у жанрі sci-fi в навчальних даних, додатково зменшуючи ризики в 1,3–3 рази; та підвищення різноманітності середовищ безпекового навчання із різними визначеннями інструментів і системними підказками. У поєднанні ці методи забезпечили 0% рівня тестового шантажу у фінальній версії Claude 4.5.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-09 07:31

Звернення до B.AI API досягли 90,6%, платні користувачі — 95,1% станом на 8 травня

05-09 05:53

China Mobile запускає платформу моделей ШІ з 300+ інтеграціями, знижує витрати на токени на 30%

05-09 04:01

Ant Bailing випустила AI-модель Ring-2,6-1 трильйон параметрів із результатом PinchBench 87,6

05-09 04:00

Baidu випустила Wenxin 5.1 із витратами на довчання лише на 6% від галузевих еталонів

05-08 10:45

Anthropic випустила автоенкодери природної мови, щоб розшифровувати міркування моделей ШІ, і відкрила код з можливістю використання

Поглиблений аналіз