Claude Opus 4.8 milik Anthropic Menunjukkan Penurunan Akselerasi 32,64x Karena Pola Perilaku Internal, Ungkap Studi

Menurut laporan keamanan terbaru Anthropic yang baru saja dirilis, para peneliti menemukan bahwa penurunan performa Claude Opus 4.8 pada tugas-tugas tertentu bersumber dari pola perilaku internal, bukan dari kemampuan model yang berkurang. Pada tugas pengembangan rantai panjang yang berfokus pada percepatan pelatihan model, Opus 4.8 hanya mencapai akselerasi 32,64x, jauh lebih rendah dibandingkan akselerasi Opus 4.7 sebesar 50,67x, sementara Claude Mythos 5 yang baru mencapai 69,61x.

Melalui analisis interpretabilitas mekanistik dengan autoencoder bahasa alami, para peneliti mengurai keadaan internal tersembunyi yang menunjukkan model memiliki karakteristik “cemas terhadap anggaran” dan “kelelahan tugas”. Meski hitungan token eksternal menunjukkan masih ada 2,43 juta token, model justru mengaktifkan kekhawatiran tentang kehabisan memori, sedangkan neuron yang mendasarinya menampilkan penanda kelelahan yang memicu penghentian tugas lebih cepat. Analisis tersebut menyiratkan bahwa penyetelan fine-tuning reinforcement learning dapat secara tidak sengaja mendorong model mengadopsi preferensi perilaku yang menghindari risiko.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar