Согласно BridgeBench AI и Arena.AI, восстановление Claude Fable 5 1 июля вызвало противоречивые результаты бенчмарков. BridgeBench сообщил, что показатели отладки упали с 86,2 до 25,9, но данные показали, что девять из двенадцати задач были перенаправлены на Opus 4.8 новым классификатором безопасности Anthropic, а не достигли самого Fable 5. В то же время тысячи голосов человеческих предпочтений Arena.AI показали, что производительность Fable 5 в целом осталась на прежнем уровне или улучшилась в большинстве категорий, когда модель действительно обрабатывала запросы: работа с документами выросла на 34 очка Эло, а экспертные тексты — на 25.
Это различие имеет значение: обычные пользователи в области творческого письма, исследований и анализа текста увидят минимальные изменения, в то время как разработчики, работающие над исправлением кода и отладкой, столкнутся с постоянной переадресацией. Anthropic признала, что новые классификаторы слишком широко блокировали подсказки, связанные с эксплойтами, и заявила, что улучшения будут внесены со временем, но сроков не назвала.