Menurut laporan keamanan terbaru Anthropic yang baru saja dirilis, para peneliti menemukan bahwa penurunan performa Claude Opus 4.8 pada tugas-tugas tertentu bersumber dari pola perilaku internal, bukan dari kemampuan model yang berkurang. Pada tugas pengembangan rantai panjang yang berfokus pada percepatan pelatihan model, Opus 4.8 hanya mencapai akselerasi 32,64x, jauh lebih rendah dibandingkan akselerasi Opus 4.7 sebesar 50,67x, sementara Claude Mythos 5 yang baru mencapai 69,61x.
Melalui analisis interpretabilitas mekanistik dengan autoencoder bahasa alami, para peneliti mengurai keadaan internal tersembunyi yang menunjukkan model memiliki karakteristik “cemas terhadap anggaran” dan “kelelahan tugas”. Meski hitungan token eksternal menunjukkan masih ada 2,43 juta token, model justru mengaktifkan kekhawatiran tentang kehabisan memori, sedangkan neuron yang mendasarinya menampilkan penanda kelelahan yang memicu penghentian tugas lebih cepat. Analisis tersebut menyiratkan bahwa penyetelan fine-tuning reinforcement learning dapat secara tidak sengaja mendorong model mengadopsi preferensi perilaku yang menghindari risiko.