Claude Fable 5 додала механізм детектування дистиляції, рівень спрацювання нижчий за 5%

Claude Fable 5蒸餾偵測機制

Anthropic 9 червня офіційно опублікувала Claude Fable 5 — першу для публічного доступу модель рівня Mythos. Вона інтегрує механізм дистиляції з виявленням, керований AI-класифікатором: коли система ідентифікує спроби дистиляції та ще три категорії запитів із високим ризиком, вона автоматично знижує рівень відповіді до Opus 4.8. Anthropic підтвердила, що цей механізм у середньому впливає на менш ніж 5% сесій Session.

Характеристики виявлення дистиляції: три тригерні умови та автоматичне зниження рівня

Згідно з офіційною заявою Anthropic, AI-класифікатор Claude Fable 5 спрацьовує за таких умов:

· Запити, пов’язані з мережевими атаками

· Запити, пов’язані з біологічною або хімічною зброєю

· Спроби дистиляції моделі (включно з перефразуванням prompt, steering vectors і методами вилучення, зокрема високоефективним донавчанням через PEFT)

Після спрацювання система автоматично переходить до відповіді Claude Opus 4.8 і сповіщає користувача. Anthropic підтвердила, що для атакувальних мережевих безпекових завдань частка успішного перехоплення становить 100%; загальний вплив механізму — менш ніж 5% сесій Session.

Підтверджені числа щодо обвинувачень за лютий 2026 року

Anthropic офіційно підтвердила, що об’єктами звинувачень у лютому 2026 року були DeepSeek, Moonshot AI та MiniMax. Вони, за даними, ініціювали понад 16 млн запитів через близько 24 тис. фальшивих акаунтів, системно вилучаючи виходи Claude для тренування власних моделей.

Числа обсягу запитів, які згодом розібрав дослідник машинного навчання Nathan Lambert (зовнішній незалежний дослідник, не Anthropic), становлять: DeepSeek — близько 150 тис. запитів (для моделей міркування та винагороди), Moonshot AI — близько 3,4 млн запитів, MiniMax — близько 13 млн запитів; для двох останніх це відповідає обсягу посттренувальних даних приблизно 1 500 до 4 000 млрд token. Числа Lambert є його незалежним аналізом і не є офіційними даними Anthropic.

Відомі обмеження механізму: межі між легальною та несанкціонованою дистиляцією розмиті

Anthropic підтвердила, що «легальна дистиляція» (в межах дозволеного використання виходів Claude) і «несанкціонована дистиляція» майже не відрізняються на рівні технічних операцій; у визначенні меж існує розмита зона. Nathan Lambert у своєму зовнішньому аналізі зазначає: «Заблокувати дистиляцію буде складніше, ніж обмежити відправлення таких фізичних ресурсів, як GPU».

Також Lambert вказує, що доки Anthropic продовжує продавати API, канали дистиляції не можна повністю закрити. Навіть у середовищі, де GPU обмежені, китайські лабораторії, як і раніше, мають розвинену інфраструктуру навчання з підкріпленням (RL) і можуть покладатися на відкриті моделі Meta та Google, а також на власні конвеєри синтетичних даних. Оцінки, наведені вище, є незалежним зовнішнім аналізом Lambert і не відображають позицію Anthropic.

Поширені запитання

Чим виявлення дистиляції в Claude Fable 5 відрізняється від антисистеми дистиляції в попередніх умовах використання?

Раніше вимоги Anthropic проти дистиляції здебільшого були прописані в умовах використання (Terms of Service) і спиралися на юридичні обмеження. У Claude Fable 5 підхід полягає в інтеграції AI-класифікатора безпосередньо в саму модель: він на технічному рівні перехоплює виявлені спроби дистиляції та автоматично знижує рівень відповіді, без очікування втручання юридичних процедур.

Що таке дистиляція моделі і чому легальну та несанкціоновану дистиляцію важко точно визначити на технічному рівні?

Дистиляція моделі (Knowledge Distillation) — це метод, за якого виходи великої моделі використовують для тренування меншої, щоб вона вивчала її можливості. Легальна дистиляція (в межах дозволеного використання виходів) та несанкціонована дистиляція (системні масові запити для вилучення тренувальних даних) майже однакові за технікою виконання, через що виявлення й автоматична категоризація AI-класифікатором стають проблемними.

Який відомий вплив цей механізм має на прогрес навчання китайських AI-лабораторій на кшталт DeepSeek?

Anthropic не опублікувала кількісних даних про вплив цього механізму на конкретні лабораторії. Аналіз зовнішнього дослідника Nathan Lambert вказує, що китайські лабораторії мають відкриті моделі Meta та Google, власну інфраструктуру для навчання з підкріпленням та конвеєри генерації синтетичних даних; дистиляційний захист є перешкодою, а не принциповою блокадою. Оцінки Lambert є зовнішнім незалежним аналізом і не становлять офіційної позиції Anthropic.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів