
Anthropic 9 июня официально выпустила Claude Fable 5 — первую модель уровня Mythos, открытую для широкой публики. Она интегрирует механизм обнаружения дистилляции, управляемый AI-классификатором: когда система идентифицирует попытки дистилляции и ещё две категории запросов повышенного риска, она автоматически снижает уровень ответа до Opus 4.8. Anthropic подтвердил, что в среднем этот механизм затрагивает менее 5% диалоговых Session.
Спецификация обнаружения дистилляции: три условия срабатывания и механизм автоматического даунгрейда
Согласно официальному заявлению Anthropic, условия срабатывания AI-классификатора Claude Fable 5 следующие:
· Запросы, связанные с атаками на кибербезопасность
· Запросы, связанные с биологическим или химическим оружием
· Попытки дистилляции модели (включая приёмы извлечения, такие как переписывание prompt, steering vectors и параметрическая эффективная тонкая настройка PEFT)
После срабатывания система автоматически переключает диалог на ответы Claude Opus 4.8 и уведомляет пользователя. Anthropic подтвердил, что успешность перехвата для агрессивных задач в сфере кибербезопасности составляет 100%; суммарное влияние механизма — менее 5% диалоговых Session.
Подтверждённые цифры по обвинениям за февраль 2026 года
Anthropic официально подтвердил, что в феврале 2026 года в качестве объектов обвинений фигурировали DeepSeek, Moonshot AI и MiniMax. Они, используя примерно 24 тыс. поддельных аккаунтов, инициировали более 16,0 млн запросов; это было направлено на систематическое извлечение выходных данных Claude для обучения собственных моделей.
Цифры объёма запросов, которые позже разобрал исследователь машинного обучения Nathan Lambert (внешний независимый исследователь, не являющийся представителем Anthropic), следующие: DeepSeek — около 150 тыс. запросов (на задачи рассуждения и модели вознаграждения), Moonshot AI — около 3,4 млн, MiniMax — около 13,0 млн; для двух последних соответствующий объём посттренировочных данных — примерно от 1500 до 4000 млрд token. Цифры Lambert — результат его независимого анализа и не являются данными Anthropic.
Известные ограничения механизма: размытая граница между «легальной» и «неавторизованной» дистилляцией
Anthropic подтвердил, что «легальная дистилляция» (согласно лицензированному использованию выходных данных Claude) и «неавторизованная дистилляция» на уровне технических операций почти идентичны; определение границы имеет размытые зоны. Nathan Lambert в своём внешнем анализе заявил: «Блокировать дистилляцию будет куда сложнее, чем ограничивать отгрузку таких физических объектов, как GPU.»
Lambert также отметил, что пока Anthropic продолжает продавать API, каналы дистилляции полностью закрыть нельзя; китайские лаборатории даже в условиях ограниченных GPU сохраняют развитую инфраструктуру обучения с подкреплением (RL) и всё ещё могут опираться на открытые модели Meta и Google, а также на собственные конвейеры генерации синтетических данных. Указанная оценка — это внешний независимый анализ Lambert, а не позиция Anthropic.
Часто задаваемые вопросы
Чем обнаружение дистилляции в Claude Fable 5 отличается от анти-дистилляционных положений в ранее использовавшихся условиях?
Ранее анти-дистилляционные требования Anthropic в основном были отражены в условиях (Terms of Service) и опирались на юридические ограничения. В Claude Fable 5 подход заключается в интеграции AI-классификатора непосредственно в саму модель: на техническом уровне система перехватывает обнаруженные попытки дистилляции и автоматически понижает уровень ответа, не дожидаясь вмешательства юридических процедур.
Что такое дистилляция модели и почему «легальная» и «неавторизованная» дистилляция трудно точно различимы на техническом уровне?
Дистилляция модели (Knowledge Distillation) — это использование выходных данных большой модели для обучения меньшей модели, чтобы последняя переняла её способности. «Легальная дистилляция» (согласно авторизованному использованию выходных данных) и «неавторизованная дистилляция» (систематические масштабные запросы для извлечения данных обучения) почти не отличаются по способу технического выполнения; поэтому у AI-классификатора возникают сложности с точной классификацией.
Какие известные влияния этот механизм имеет на этапы обучения китайских AI-лабораторий вроде DeepSeek?
Anthropic не публиковал количественные данные о том, как этот механизм влияет на конкретные лаборатории. Внешний исследователь Nathan Lambert в своём анализе указывает, что китайские лаборатории располагают открытыми моделями Meta и Google, собственной инфраструктурой обучения с подкреплением и конвейерами генерации синтетических данных; защита от дистилляции — это скорее помеха, а не фундаментальное препятствие. Оценка Lambert — это внешний независимый анализ, а не официальная позиция Anthropic.