根據賓州州立大學(Penn State)、加州大學聖塔克魯茲分校(UCSC)以及亞馬遜(Amazon)最新論文〈Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents〉,研究人員發現,不同 AI 代理(AI agents)之間的設備更新(equipment update)能力呈現出一種「扁平化(flattening)」的模式。交叉測試顯示,不同模型的設備更新所帶來的效能提升差異僅 3.1%,即使是 9B 規模的 Qwen3.5-9B 模型,其更新在結構上也可等同於旗艦 Claude Opus 4.6。
不過,代理(agents)從更新後設備中獲益的能力則呈現非單調趨勢。像 Qwen3-32B 這樣的弱模型面臨兩種關鍵失敗模式:「設備啟用失敗(equipment activation failure)」:技能載入率僅 25.1%,而強模型可達 96%;以及「設備合規失敗(equipment compliance failure)」:在延長執行期間,指令遵循度會從 0.52 急遽下降到 0.13。AI 研究員 Elvis Sar 表示,在他對程式碼代理(coding agent)的實驗中也觀察到類似模式,暗示計算預算應優先用於執行代理(execution agents),而非演化引擎(evolution engines)。