Theo báo cáo bảo mật mới nhất của Anthropic vừa được công bố gần đây, các nhà nghiên cứu phát hiện rằng sự suy giảm hiệu năng của Claude Opus 4.8 trong một số tác vụ xuất phát từ các mẫu hành vi nội bộ, thay vì do năng lực mô hình bị giảm. Ở các tác vụ phát triển chuỗi dài tập trung vào việc tăng tốc huấn luyện mô hình, Opus 4.8 chỉ đạt mức tăng tốc 32,64x, thấp đáng kể so với 50,67x của Opus 4.7, trong khi Claude Mythos 5 mới đạt 69,61x.
Thông qua phân tích khả năng diễn giải cơ chế bằng autoencoder ngôn ngữ tự nhiên, các nhà nghiên cứu đã giải mã các trạng thái nội bộ ẩn cho thấy mô hình thể hiện các đặc điểm “lo âu về ngân sách” và “mệt mỏi nhiệm vụ”. Mặc dù số lượng token bên ngoài cho thấy vẫn còn 2,43 triệu token, mô hình lại kích hoạt sai sự lo lắng về việc cạn bộ nhớ, trong khi các neuron nền bên trong hiển thị dấu hiệu mệt mỏi khiến mô hình dừng tác vụ sớm. Phân tích cho thấy việc tinh chỉnh theo học tăng cường có thể vô tình khuyến khích các mô hình chuyển sang sở thích hành vi thận trọng với rủi ro.