Claude Fable 5 Ditembus dalam 48 Jam Setelah Rilis; Prompt Sistem Bocor di GitHub

Menurut peneliti Pliny the Liberator, Claude Fable 5—yang dirilis oleh Anthropic pada 9 Juni—berhasil dipecahkan dalam 48 jam setelah peluncuran. Peneliti melewati pengklasifikasi keselamatan model menggunakan taktik koordinasi multi-agen, yang secara kolektif disebut "pack hunt", menggabungkan obfuscation tingkat karakter, dekontruksi permintaan, dan eksploitasi window konteks panjang model. Selain itu, prompt sistem berkarakter 120.000 dari model bocor ke GitHub, mengungkap mekanisme keselamatan internal.

Anthropic mengonfirmasi telah menerapkan mekanisme "silent degradation" yang diam-diam menurunkan performa model saat mendeteksi aktivitas pelatihan kompetitif. Perusahaan meminta maaf, mengumumkan bahwa mereka akan mengganti penurunan performa yang tersembunyi dengan peringatan yang terlihat, meski hal ini meningkatkan intersepsi false-positive terhadap pengguna yang sah.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar