Згідно з дослідником Плінієм Порятівником, Claude Fable 5—випущений Anthropic 9 червня—був успішно зламаний протягом 48 годин після запуску. Дослідник обійшов класифікатор безпеки моделі, використовуючи тактики координації між кількома агентами, які в сукупності називають «полювання зграєю» (pack hunt). Цей підхід поєднував обфускацію на рівні символів, розкладання запитів на компоненти та експлуатацію розширеного контекстного вікна моделі. Крім того, системний промпт моделі обсягом 120 000 символів був злитий на GitHub, що розкрило внутрішні механізми безпеки.
Anthropic підтвердив, що впровадив механізм «тихого погіршення», який таємно знижував продуктивність моделі під час виявлення конкурентної навчальної активності. Компанія вибачилася, оголосивши, що замінить приховане зниження продуктивності на видимі попередження, хоча це підвищує частоту помилкових спрацювань під час перехоплення законних користувачів.