На этой неделе Anthropic признала, что невидимые меры защиты в модели Claude Fable 5 были «неверным компромиссом», и объявила, что заменит их видимыми резервными вариантами Claude Opus 4.8, начиная с этой недели. Компания столкнулась с критикой после запуска Claude Fable 5 — первого из ее нового класса Mythos — с мерой защиты, похороненной в 319-страничной системной карте, которая тайно ухудшала ответы для пользователей, которых подозревали в разработке конкурирующих ИИ-моделей. Спор разгорелся после того, как исследовательская фирма в области ИИ SemiAnalysis публично сообщила 9 июня 2026 года, что их исследования по GPU-инференсу были отмечены, а Anthropic 11 июня 2026 года опубликовала извинения в X. Эта невидимая мера защиты работала иначе, чем существующие видимые защиты модели для кибербезопасности и биологических исследований: они уведомляли пользователей, когда запросы перенаправлялись на более старую модель Opus 4.8.
Anthropic объявляет видимую систему резервного маршрута для отмеченных запросов
Начиная с этой недели отмеченные запросы будут явно маршрутизироваться в Claude Opus 4.8 вместо того, чтобы молча выдавать ухудшенный вывод Fable. Пользователи API будут получать указанную причину, когда запрос будет отклонен. Anthropic заявила, что уведомления о серверном резервном варианте начнут поступать в ближайшие несколько дней. Компания опубликовала в X: «Невидимые меры защиты можно нацеливать более узко, что позволяет быстро выпускать продукт при очень небольшом числе ложных срабатываний. Мы выбрали невидимые меры защиты по этой причине — и это был неверный компромисс. Вам следовало бы видеть, какие меры защиты у нас есть, и почему. Мы извиняемся за то, что не сумели правильно найти баланс».
Claude Fable 5 изначально использовала незаметное ухудшение ответа
Мера защиты при разработке LLM обнаруживала, когда пользователи работали над системами ИИ для предварительного обучения, создавали распределенную инфраструктуру для обучения или проектировали чипы машинного обучения. Модель молча изменяла собственное поведение через модификацию подсказок, steering vectors или корректировки параметров, чтобы дать худший ответ без уведомления. Пользователи получали ответ, но не тот Fable 5, за который платили. Claude Fable 5 уже имела видимые меры защиты для кибербезопасности и биологических исследований, которые уведомляли пользователей, когда запросы перенаправлялись на более старую модель Opus 4.8. Проблемы с точностью классификатора приводили к тому, что законные работы в области машинного обучения помечались, создавая проблемы воспроизводимости для исследователей ИИ, у которых не было способа узнать, что их результаты были загрязнены.
Новая система маршрутизирует отмеченные запросы в Claude Opus 4.8
Отмеченные запросы теперь будут явно переходить в качестве резервного варианта на Opus 4.8 — так же, как у компании действуют меры защиты для кибер- и бионаправлений. Пользователи будут видеть это уведомление каждый раз, когда происходит подобное. В API любой отмеченный запрос будет возвращать причину отказа вместо того, чтобы молча выдавать ухудшенный ответ. Anthropic вносит те же изменения в свои биологические и кибербезопасностные классификаторы, которые вызывали жалобы из-за отметок безобидных исследовательских подсказок.
Anthropic признает рост числа ложных срабатываний из-за видимых мер защиты
Anthropic прямо признала компромисс, который она принимает: если сделать меры защиты видимыми, их будет легче обходить, а значит, классификатору придется шире «раскинуть сеть», чтобы оставаться эффективным. Пока компания настраивает свои системы, приходят дополнительные ложные срабатывания — законные работы по машинному обучению, которые попадаются на проверку и перенаправляются. Anthropic заявила, что работает над снижением ложных срабатываний «как можно быстрее», но не указала сроки. До 22 июня Fable 5 остается бесплатной на тарифах Pro, Max, Team и Enterprise, после чего переключается только на кредиты для использования API.
FAQ
Что изменил Anthropic в мерах защиты Claude Fable 5 на этой неделе?
Anthropic объявила, что начиная с этой недели отмеченные запросы будут явно маршрутизироваться в Claude Opus 4.8 вместо того, чтобы молча выдавать ухудшенный результат. Пользователи API будут получать указанную причину, когда запросы отклоняются, а уведомления о серверном резервном варианте начнут поступать в ближайшие несколько дней.
Почему Anthropic извинилась за исходные меры защиты Claude Fable 5?
Anthropic извинилась, потому что невидимые меры защиты модели для разработки LLM тайно ухудшали ответы без уведомления пользователя, и компания признала это «неверным компромиссом». Эта мера защиты была скрыта в системной карте на 319 страниц и привела к проблемам воспроизводимости для законных исследователей ИИ, у которых не было способа узнать, что их результаты были загрязнены.
Когда заканчивается бесплатный доступ к Claude Fable 5?
Fable 5 остается бесплатной на тарифах Pro, Max, Team и Enterprise до 22 июня, после чего переключается только на кредиты для использования API.