Anthropic menambahkan fitur deteksi distilasi pada Claude Fable 5, dapatkah itu menahan model sumber terbuka dari China?

Question

Anthropic Menambahkan Deteksi Penyulingan di Claude Fable 5, pihak ketiga begitu mencoba mengekstrak kemampuan model, sistem secara otomatis kembali ke Opus 4.8, sama seperti memasukkan larangan penyulingan ke dalam ketentuan penggunaan model itu sendiri.
（Latar belakang: Anthropic menuduh DeepSeek dan AI China lainnya meniru Claude secara curang, menggunakan 24.000 akun palsu untuk melakukan 16 juta pertanyaan）
（Konteks tambahan: Anthropic: Hanya dengan model AI AS yang unggul dari China, demokrasi dapat dilindungi, dan usulan menjadikan serangan penyulingan sebagai kejahatan pidana）

Daftar Isi Artikel

Toggle

Dari ancaman hukum ke blokir teknis
Apa yang diblokir dari penyulingan?
Batas sebenarnya dari blokir teknis

Claude Fable 5 dari Anthropic resmi dirilis pagi ini (10), ini adalah model tingkat Mythos pertama yang dibuka untuk umum oleh Anthropic, skor SWE-Bench Pro 80,3%, sedangkan Opus 4.8 adalah 69,2%. Harga adalah 10 dolar AS per juta token input, 50 dolar AS per output, sekitar dua kali lipat dari Opus 4.8.

Selain kemampuan model itu sendiri, ada fokus diskusi pada mekanisme perlindungan yang menyertainya, Anthropic menuliskan larangan penyulingan ke dalam model; namun, makna simbolis dari langkah ini mungkin jauh lebih besar daripada efek praktisnya.

Dari ancaman hukum ke blokir teknis

Mungkin Anda masih ingat, Februari lalu, Anthropic secara terbuka menuduh DeepSeek, Moonshot AI, MiniMax melakukan 16 juta query terhadap Claude melalui sekitar 24.000 akun palsu, secara sistematis mengekstrak output untuk melatih model mereka sendiri. OpenAI juga turut mengusahakan legislasi di AS untuk membatasi hal ini.

Baca juga: Apa itu penyulingan model AI? Bagaimana DeepSeek menghabiskan 6 juta dan belajar 100 juta kemampuan

Empat bulan kemudian, pendekatan Fable 5 berbeda: menggunakan pengklasifikasi AI untuk mengenali tiga kategori permintaan berisiko tinggi secara otomatis, yaitu keamanan siber, senjata biologis dan kimia, serta penyulingan, ketika terdeteksi, model akan mengembalikan jawaban dari Opus 4.8. Untuk teknik seperti modifikasi prompt, steering vectors (teknik manipulasi output model dari luar), dan penyesuaian parameter PEFT untuk efisiensi, Anthropic juga menyatakan Fable 5 akan secara aktif menurunkan efektivitasnya.

Dari "ingin melaporkan" menjadi "agar Anda tidak bisa mengakses", ini adalah peningkatan strategi. Tapi masalahnya, Anthropic sendiri mengakui bahwa lebih dari 95% percakapan tidak terpengaruh sama sekali. Mekanisme perlindungan ini hanya berlaku untuk skenario yang sangat sempit; tingkat keberhasilan dalam mencegah tugas keamanan siber adalah 100%, tetapi batas dari "perilaku penyulingan" tetap kabur, karena penyulingan yang sah dan tidak sah secara teknis hampir tidak berbeda.

Apa yang diblokir dari penyulingan?

Kembali ke tuduhan Februari lalu. Peneliti machine learning Nathan Lambert kemudian mengurai angka sebenarnya: sekitar 150.000 query dari DeepSeek, yang ditujukan untuk model inferensi dan reward; sekitar 3,4 juta dari Moonshot, dan sekitar 13 juta dari MiniMax, total data pelatihan pasca-latihan dari kedua terakhir ini sekitar 150 hingga 400 miliar token.

Lambert berpendapat, meskipun di lingkungan GPU terbatas, laboratorium China tetap memiliki fondasi reinforcement learning (RL) yang solid; keunggulan kompetitif sebenarnya terletak pada kemampuan mensintesis data secara "benar-benar skala". Secara sederhana, membuat model belajar melalui percobaan dan umpan balik hukuman-penghargaan, tanpa bergantung pada jawaban yang sudah ada.

Ada juga kontradiksi mendasar: selama Anthropic masih menjual API, penyulingan tidak bisa sepenuhnya dicegah. API terbuka adalah model bisnis Anthropic, dan penyulingan secara alami adalah produk sampingan dari "API terbuka". Perlindungan ini hanya mencakup 5%, sisanya 95% dari percakapan tetap mengalir.

Batas sebenarnya dari blokir teknis

Lambert mengatakan secara lugas: "Memblokir penyulingan jauh lebih sulit daripada membatasi pengiriman GPU dan barang fisik lainnya."

Dari sudut pandang ini, mekanisme perlindungan Fable 5 memiliki dua makna: sebagai sinyal industri, bahwa aliran teknologi sudah mencapai tingkat di mana harus dimasukkan ke dalam model itu sendiri; sebagai gangguan bagi laboratorium open source China, tetapi hampir tidak menghambat. Bahkan jika perlindungan penyulingan Fable 5 benar-benar efektif, laboratorium China masih memiliki model open source dari Google, Meta, fondasi RL mereka sendiri, dan pipeline data sintetik yang dapat diandalkan.

Namun, dari sudut pandang simbolis, langkah Anthropic yang meningkatkan dari aspek hukum ke aspek teknis tetap penting: menunjukkan bahwa "blokir teknologi" sedang menjadi alat geopolitik AI yang baru.

Anthropic menambahkan fitur deteksi distilasi pada Claude Fable 5, dapatkah itu menahan model sumber terbuka dari China?

Dari ancaman hukum ke blokir teknis

Apa yang diblokir dari penyulingan?

Batas sebenarnya dari blokir teknis

Topik Trending

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

BlackRockReducesBTCIncreasesETH

SpaceXIPOAttractsOver250BillionInOrders

Disematkan