Menurut paper terbaru dari Penn State, UCSC, dan Amazon, berjudul "Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents," peneliti menemukan bahwa kemampuan pembaruan perangkat di antara agen AI menunjukkan pola "flattening" di berbagai model. Pengujian silang mengungkap bahwa pembaruan perangkat dari model yang berbeda menghasilkan peningkatan performa yang hanya berbeda 3,1%, bahkan model Qwen3.5-9B berskala 9B tetap menghasilkan pembaruan yang secara struktural setara dengan flagship Claude Opus 4.6.
Namun, kemampuan agen untuk memperoleh manfaat dari perangkat yang diperbarui memperlihatkan tren yang tidak monoton. Model yang lebih lemah seperti Qwen3-32B menghadapi dua mode kegagalan kritis: "equipment activation failure" dengan hanya 25,1% tingkat pemuatan skill dibanding 96% pada model yang lebih kuat, serta "equipment compliance failure," ketika kepatuhan terhadap instruksi turun tajam dari 0,52 menjadi 0,13 selama eksekusi yang diperpanjang. Peneliti AI Elvis Sar mencatat pola serupa dalam eksperimen agen coding-nya, yang menyiratkan bahwa anggaran komputasi sebaiknya memprioritaskan agen eksekusi ketimbang mesin evolusi.