Penn State、UCSC、Amazonの最新論文「Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents」によると、研究者らはAIエージェントにおける機器(装備)更新能力が、異なるモデル間で「フラット化(平坦化)」のパターンを示すことを見いだした。クロステストの結果、異なるモデルの機器更新による性能向上はわずか3.1%の差しかなく、さらに9B規模のQwen3.5-9Bモデルでさえ、旗艦Claude Opus 4.6に構造的に同等な更新を生成した。
一方で、更新された機器から恩恵を得るエージェントの能力には、単調ではない傾向が見られる。Qwen3-32Bのような弱いモデルは、2つの重大な失敗モードに直面する。すなわち、「equipment activation failure(機器の作動化失敗)」であり、スキルのロード率が強いモデルの96%に対して25.1%にとどまること、そして「equipment compliance failure(機器への準拠失敗)」であり、実行を長く続けると指示の遵守が0.52から0.13へ急落することである。AI研究者のElvis Sarは、彼のコーディング・エージェントの実験でも同様のパターンを確認しており、計算予算は進化エンジンよりも実行(execution)エージェントを優先すべきだと示唆した。