
Anthropic pada 9 Juni secara resmi merilis Claude Fable 5, model tingkat Mythos pertama yang dibuka untuk publik. Model ini mengintegrasikan mekanisme deteksi distilasi berbasis AI classifier; ketika sistem mengenali tiga jenis permintaan berisiko tinggi seperti upaya distilasi, dialog akan otomatis diturunkan ke respons Opus 4.8. Anthropic mengonfirmasi bahwa mekanisme ini secara rata-rata berdampak pada kurang dari 5% sesi percakapan.
Spesifikasi Deteksi Distilasi: Tiga Kondisi Pemicu dan Mekanisme Penurunan Otomatis
Menurut pernyataan resmi Anthropic, kondisi pemicu AI classifier Claude Fable 5 adalah sebagai berikut:
· Permintaan serangan keamanan siber
· Permintaan terkait senjata biologis atau kimia
· Upaya distilasi model (termasuk teknik ekstraksi seperti prompt rewriting, steering vectors, dan fine-tuning efisien parameter PEFT)
Setelah pemicu terjadi, sistem otomatis menurunkan percakapan ke respons Claude Opus 4.8 dan memberi tahu pengguna. Anthropic mengonfirmasi bahwa tingkat keberhasilan pemblokiran untuk tugas keamanan siber yang bersifat agresif mencapai 100%; keseluruhan dampak mekanisme ini pada sesi percakapan berada di bawah 5%.
Angka Konfirmasi atas Tuduhan Februari 2026
Anthropic mengonfirmasi bahwa pihak yang dituduh pada Februari 2026 adalah DeepSeek, Moonshot AI, dan MiniMax. Mereka melancarkan lebih dari 16 juta kali permintaan melalui sekitar 24 ribu akun palsu, dengan mengekstrak output Claude secara sistematis untuk melatih model mereka sendiri.
Angka volume kueri yang dibongkar setelahnya oleh peneliti riset machine learning Nathan Lambert (peneliti independen eksternal, bukan pihak resmi Anthropic) adalah: sekitar 150 ribu kali untuk DeepSeek (ditujukan untuk model penalaran dan reward), sekitar 3,4 juta kali untuk Moonshot AI, dan sekitar 13 juta kali untuk MiniMax. Dua yang terakhir, jika digabung, menghasilkan volume data pasca-pelatihan sekitar 150 hingga 400 miliar token. Angka Lambert merupakan analisis independennya sendiri, bukan data resmi Anthropic.
Keterbatasan yang Diketahui dari Mekanisme: Batas Kabur antara Distilasi yang Sah dan yang Tidak Diizinkan
Anthropic mengonfirmasi bahwa “distilasi yang sah” (menggunakan output Claude sesuai lisensi) dan “distilasi yang tidak diizinkan” pada tingkat operasi teknis hampir sama, sehingga terdapat zona abu-abu dalam penentuan batasnya. Nathan Lambert dalam analisis eksternalnya menyatakan: “Memblokir distilasi akan jauh lebih sulit dibanding membatasi pengiriman barang fisik seperti GPU.”
Lambert juga menambahkan bahwa selama Anthropic masih menjual API, kanal distilasi tidak bisa sepenuhnya ditutup; meski di lingkungan yang sumber daya GPU-nya terbatas, infrastruktur reinforcement learning (RL) di laboratorium Tiongkok tetap matang, sehingga masih bisa mengandalkan model open source dari Meta dan Google serta pipeline data sintetis milik sendiri. Penilaian di atas merupakan analisis independen eksternal Lambert, bukan sikap Anthropic.
FAQ
Apa perbedaan deteksi distilasi Claude Fable 5 dengan ketentuan anti-distilasi dalam ketentuan penggunaan sebelumnya?
Persyaratan anti-distilasi Anthropic sebelumnya terutama tercermin dalam ketentuan layanan (Terms of Service), dengan mengandalkan pembatasan berbasis aspek hukum. Pendekatan Claude Fable 5 mengintegrasikan AI classifier ke dalam inti model; pada tingkat teknis, ia langsung memblokir upaya distilasi yang terdeteksi dan secara otomatis menurunkan respons, tanpa harus menunggu proses hukum campur tangan.
Apa itu distilasi model, dan mengapa distilasi yang sah serta yang tidak diizinkan sulit ditetapkan secara presisi di level teknis?
Distilasi model (Knowledge Distillation) adalah proses menggunakan output dari model besar untuk melatih model yang lebih kecil, sehingga model terakhir mempelajari kemampuan model pertama. Distilasi yang sah (menggunakan output sesuai izin) dan distilasi yang tidak diizinkan (kueri sistematis dalam jumlah besar untuk mengekstrak data pelatihan) pada tingkat operasi teknis hampir sama, sehingga muncul kesulitan bagi AI classifier untuk melakukan klasifikasi yang akurat.
Apa dampak yang sudah diketahui mekanisme ini terhadap proses pelatihan laboratorium AI China seperti DeepSeek?
Anthropic tidak mempublikasikan data kuantitatif spesifik tentang dampak mekanisme ini terhadap laboratorium tertentu. Analisis peneliti eksternal Nathan Lambert menunjukkan bahwa laboratorium di China memiliki model open source dari Meta dan Google, infrastruktur reinforcement learning mereka sendiri, serta pipeline generasi data sintetis; perlindungan distilasi merupakan gangguan, bukan hambatan mendasar. Penilaian Lambert merupakan analisis independen eksternal, bukan sikap resmi Anthropic.