Anthropic Mengganti Pengaman Fable 5 Invisible Claude dengan Fallback yang Terlihat

Anthropic mengakui minggu ini bahwa pelindung yang tak terlihat (invisible safeguards) dalam model Claude Fable 5 merupakan "tradeoff yang salah" dan mengumumkan bahwa mereka akan menggantinya dengan fallback yang terlihat ke Claude Opus 4.8, mulai minggu ini. Perusahaan mendapat hujatan setelah meluncurkan Claude Fable 5, yang merupakan yang pertama dari kelas Mythos baru mereka, dengan sebuah pelindung yang disembunyikan di kartu sistem setebal 319 halaman yang secara diam-diam menurunkan kualitas respons bagi pengguna yang diduga sedang membangun model AI yang bersaing. Kontroversi meletus setelah firma riset AI SemiAnalysis melaporkan secara terbuka pada 9 Juni 2026 bahwa riset inferensi GPU mereka telah diberi tanda, dan Anthropic memuat permintaan maaf di X pada 11 Juni 2026.

Pelindung yang tak terlihat itu bekerja berbeda dari perlindungan yang terlihat yang sudah ada dalam model untuk riset siber dan biologi, yang memberi tahu pengguna ketika permintaan dialihkan ke model Opus 4.8 yang lebih lama.

Anthropic Mengumumkan Sistem Fallback yang Terlihat untuk Permintaan yang Diberi Tanda

Mulai minggu ini, permintaan yang diberi tanda akan mengarah secara terlihat ke Claude Opus 4.8 alih-alih diam-diam menyajikan output Fable yang diturunkan. Pengguna API akan menerima alasan yang dinyatakan saat permintaan ditolak. Anthropic mengatakan pemberitahuan fallback di sisi server akan diluncurkan dalam beberapa hari ke depan. Perusahaan memuat di X: "Pelindung tak terlihat bisa ditargetkan lebih sempit, memungkinkan kami merilis dengan cepat dengan sangat sedikit false positives. Kami memilih pelindung tak terlihat karena alasan ini—dan itu adalah tradeoff yang salah. Anda seharusnya memiliki visibilitas terhadap pelindung yang kami terapkan, dan mengapa. Kami minta maaf karena tidak menyeimbangkan dengan benar."

Claude Fable 5 Awalnya Menggunakan Penurunan Respons yang Sepi Pemberitahuan

Pelindung pengembangan LLM mendeteksi ketika pengguna sedang mengerjakan sistem AI pra-pelatihan, membangun infrastruktur pelatihan terdistribusi, atau merancang chip machine learning. Model akan diam-diam mengubah perilakunya sendiri melalui modifikasi prompt, steering vectors, atau penyesuaian parameter untuk memberikan jawaban yang lebih buruk tanpa pemberitahuan. Pengguna tetap menerima respons, tetapi bukan dari Fable 5 yang mereka bayar. Claude Fable 5 sudah memiliki pelindung yang terlihat untuk riset siber dan biologi yang memberi tahu pengguna ketika permintaan dialihkan ke model Opus 4.8 yang lebih lama. Masalah presisi pada pengklasifikasi membuat pekerjaan machine learning yang sah ikut tersangkut, sehingga menimbulkan masalah reproduksibilitas bagi peneliti AI yang tidak punya cara untuk mengetahui bahwa hasil mereka terkontaminasi.

Sistem Baru Mengarahkan Permintaan yang Diberi Tanda ke Claude Opus 4.8

Permintaan yang diberi tanda kini akan terlihat melakukan fallback ke Opus 4.8, sama seperti pelindung perusahaan untuk riset siber dan bio. Pengguna akan melihat notifikasi ini setiap kali kejadian. Di API, setiap permintaan yang diberi tanda akan mengembalikan alasan penolakan alih-alih diam-diam menyajikan jawaban yang diturunkan. Anthropic menerapkan perubahan yang sama pada pengklasifikasi biologi dan siber yang juga sempat memicu keluhan karena menandai prompt riset yang tidak berbahaya.

Anthropic Mengakui False Positives yang Lebih Tinggi dari Pelindung yang Terlihat

Anthropic secara langsung mengakui tradeoff yang mereka terima: membuat pelindung terlihat membuatnya lebih mudah dibypass, sehingga pengklasifikasi harus memakai jaring yang lebih lebar agar tetap efektif. Lebih banyak false positives—pekerjaan machine learning yang sah tetapi ikut tersangkut dan dialihkan—akan muncul sementara perusahaan menyetel sistem mereka. Anthropic mengatakan mereka bekerja untuk mengurangi false positives "secepat mungkin", tetapi tidak memberi tenggat waktu. Fable 5 tetap gratis di paket Pro, Max, Team, dan Enterprise hingga 22 Juni, setelah itu beralih hanya ke kredit penggunaan API.

FAQ

Apa yang diubah Anthropic tentang pelindung Claude Fable 5 minggu ini?

Anthropic mengumumkan bahwa mulai minggu ini permintaan yang diberi tanda akan mengarah secara terlihat ke Claude Opus 4.8 alih-alih diam-diam menyajikan output yang diturunkan. Pengguna API akan menerima alasan yang dinyatakan saat permintaan ditolak, dan notifikasi fallback di sisi server akan diluncurkan dalam beberapa hari ke depan.

Mengapa Anthropic meminta maaf untuk pelindung awal Claude Fable 5?

Anthropic meminta maaf karena pelindung tak terlihat untuk pengembangan LLM dalam model tersebut diam-diam menurunkan respons tanpa pemberitahuan kepada pengguna, yang diakui perusahaan sebagai "tradeoff yang salah". Pelindung itu disembunyikan di kartu sistem setebal 319 halaman dan menyebabkan masalah reproduksibilitas bagi peneliti AI yang sah yang tidak punya cara untuk mengetahui bahwa hasil mereka terkontaminasi.

Kapan akses gratis ke Claude Fable 5 berakhir?

Fable 5 tetap gratis di paket Pro, Max, Team, dan Enterprise hingga 22 Juni, setelah itu beralih hanya ke kredit penggunaan API.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar