Claude Fable 5 добавила механизм детектирования дистилляции, вероятность срабатывания ниже 5%

2026-06-10 03:49:33

Anthropic 9 июня официально выпустила Claude Fable 5 — первую модель уровня Mythos, открытую для широкой публики. Она интегрирует механизм обнаружения дистилляции, управляемый AI-классификатором: когда система идентифицирует попытки дистилляции и ещё две категории запросов повышенного риска, она автоматически снижает уровень ответа до Opus 4.8. Anthropic подтвердил, что в среднем этот механизм затрагивает менее 5% диалоговых Session.

Спецификация обнаружения дистилляции: три условия срабатывания и механизм автоматического даунгрейда

Согласно официальному заявлению Anthropic, условия срабатывания AI-классификатора Claude Fable 5 следующие:

· Запросы, связанные с атаками на кибербезопасность

· Запросы, связанные с биологическим или химическим оружием

· Попытки дистилляции модели (включая приёмы извлечения, такие как переписывание prompt, steering vectors и параметрическая эффективная тонкая настройка PEFT)

После срабатывания система автоматически переключает диалог на ответы Claude Opus 4.8 и уведомляет пользователя. Anthropic подтвердил, что успешность перехвата для агрессивных задач в сфере кибербезопасности составляет 100%; суммарное влияние механизма — менее 5% диалоговых Session.

Подтверждённые цифры по обвинениям за февраль 2026 года

Anthropic официально подтвердил, что в феврале 2026 года в качестве объектов обвинений фигурировали DeepSeek, Moonshot AI и MiniMax. Они, используя примерно 24 тыс. поддельных аккаунтов, инициировали более 16,0 млн запросов; это было направлено на систематическое извлечение выходных данных Claude для обучения собственных моделей.

Цифры объёма запросов, которые позже разобрал исследователь машинного обучения Nathan Lambert (внешний независимый исследователь, не являющийся представителем Anthropic), следующие: DeepSeek — около 150 тыс. запросов (на задачи рассуждения и модели вознаграждения), Moonshot AI — около 3,4 млн, MiniMax — около 13,0 млн; для двух последних соответствующий объём посттренировочных данных — примерно от 1500 до 4000 млрд token. Цифры Lambert — результат его независимого анализа и не являются данными Anthropic.

Известные ограничения механизма: размытая граница между «легальной» и «неавторизованной» дистилляцией

Anthropic подтвердил, что «легальная дистилляция» (согласно лицензированному использованию выходных данных Claude) и «неавторизованная дистилляция» на уровне технических операций почти идентичны; определение границы имеет размытые зоны. Nathan Lambert в своём внешнем анализе заявил: «Блокировать дистилляцию будет куда сложнее, чем ограничивать отгрузку таких физических объектов, как GPU.»

Lambert также отметил, что пока Anthropic продолжает продавать API, каналы дистилляции полностью закрыть нельзя; китайские лаборатории даже в условиях ограниченных GPU сохраняют развитую инфраструктуру обучения с подкреплением (RL) и всё ещё могут опираться на открытые модели Meta и Google, а также на собственные конвейеры генерации синтетических данных. Указанная оценка — это внешний независимый анализ Lambert, а не позиция Anthropic.

Часто задаваемые вопросы

Чем обнаружение дистилляции в Claude Fable 5 отличается от анти-дистилляционных положений в ранее использовавшихся условиях?

Ранее анти-дистилляционные требования Anthropic в основном были отражены в условиях (Terms of Service) и опирались на юридические ограничения. В Claude Fable 5 подход заключается в интеграции AI-классификатора непосредственно в саму модель: на техническом уровне система перехватывает обнаруженные попытки дистилляции и автоматически понижает уровень ответа, не дожидаясь вмешательства юридических процедур.

Что такое дистилляция модели и почему «легальная» и «неавторизованная» дистилляция трудно точно различимы на техническом уровне?

Дистилляция модели (Knowledge Distillation) — это использование выходных данных большой модели для обучения меньшей модели, чтобы последняя переняла её способности. «Легальная дистилляция» (согласно авторизованному использованию выходных данных) и «неавторизованная дистилляция» (систематические масштабные запросы для извлечения данных обучения) почти не отличаются по способу технического выполнения; поэтому у AI-классификатора возникают сложности с точной классификацией.

Какие известные влияния этот механизм имеет на этапы обучения китайских AI-лабораторий вроде DeepSeek?

Anthropic не публиковал количественные данные о том, как этот механизм влияет на конкретные лаборатории. Внешний исследователь Nathan Lambert в своём анализе указывает, что китайские лаборатории располагают открытыми моделями Meta и Google, собственной инфраструктурой обучения с подкреплением и конвейерами генерации синтетических данных; защита от дистилляции — это скорее помеха, а не фундаментальное препятствие. Оценка Lambert — это внешний независимый анализ, а не официальная позиция Anthropic.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

5ч назад

Anthropic запускает Claude Fable 5 с публичным доступом, цена — 10–50 долларов за 1 миллион токенов

5ч назад

Anthropic объявляет Claude Fable 5 и Claude Mythos 5 сегодня; Mythos предлагает сниженные ограничения по безопасности для экспертов по кибербезопасности

8ч назад

Anthropic выпустила публичную версию Mythos с ограничениями по кибербезопасности 10 июня

Связанные статьи

AI-модели Anthropic поднимают вопросы о безопасности DeFi из-за эксплойтов смарт-контрактов

Ethan Brooks3ч назад

Anthropic представила Claude Fable 5 — первый в своём роде ИИ-классификатор с автоматическим понижением уровня защитных ограждений

Market Whisper5ч назад

Anthropic запускает Claude Fable 5 с защитными ограничителями безопасности и Mythos 5 для правительства США

Oliver Grant11ч назад

Anthropic выпускает AI-модель Claude Mythos под названием Claude Fable 9 июня 2026 года

Oliver Grant15ч назад

OpenAI тайно подала на IPO при оценке 8520 млрд, конкурентная обстановка для Anthropic в этот же период усиливается

Market Whisper06-09 01:35

комментарий

0/400

Нет комментариев