Menurut peneliti Pliny the Liberator, Claude Fable 5—yang dirilis oleh Anthropic pada 9 Juni—berhasil dipecahkan dalam 48 jam setelah peluncuran. Peneliti melewati pengklasifikasi keselamatan model menggunakan taktik koordinasi multi-agen, yang secara kolektif disebut "pack hunt", menggabungkan obfuscation tingkat karakter, dekontruksi permintaan, dan eksploitasi window konteks panjang model. Selain itu, prompt sistem berkarakter 120.000 dari model bocor ke GitHub, mengungkap mekanisme keselamatan internal.
Anthropic mengonfirmasi telah menerapkan mekanisme "silent degradation" yang diam-diam menurunkan performa model saat mendeteksi aktivitas pelatihan kompetitif. Perusahaan meminta maaf, mengumumkan bahwa mereka akan mengganti penurunan performa yang tersembunyi dengan peringatan yang terlihat, meski hal ini meningkatkan intersepsi false-positive terhadap pengguna yang sah.