Theo bài nghiên cứu mới nhất của Penn State, UCSC và Amazon, có tiêu đề “Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents”, các nhà nghiên cứu phát hiện rằng năng lực cập nhật trang bị trong các tác nhân AI cho thấy một mô hình “bẹt” trên các mô hình khác nhau. Thử nghiệm chéo cho thấy việc cập nhật trang bị của các mô hình khác nhau chỉ tạo ra mức tăng hiệu năng chênh lệch 3,1%, và ngay cả mô hình Qwen3.5-9B cỡ 9B cũng tạo ra các cập nhật có cấu trúc tương đương với bản flagship Claude Opus 4.6.
Tuy nhiên, khả năng của các tác nhân để hưởng lợi từ trang bị được cập nhật lại thể hiện xu hướng không đơn điệu. Các mô hình yếu như Qwen3-32B gặp hai cơ chế lỗi nghiêm trọng: “lỗi kích hoạt trang bị” với tỷ lệ tải kỹ năng chỉ 25,1% so với 96% ở các mô hình mạnh hơn, và “lỗi tuân thủ trang bị”, trong đó mức độ tuân thủ hướng dẫn giảm mạnh từ 0,52 xuống 0,13 trong quá trình thực thi kéo dài. Nhà nghiên cứu AI Elvis Sar cũng ghi nhận các mẫu tương tự trong thí nghiệm của mình với tác nhân lập trình, cho thấy ngân sách tính toán nên ưu tiên các tác nhân thực thi thay vì các “cỗ máy” tiến hoá.