最新の研究:9Bモデルが自己更新スキルを習得し、Claude Opus 4.6のパフォーマンスに合わせる

Penn State、UCSC、Amazonの最新論文「Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents」によると、研究者らはAIエージェントにおける機器(装備)更新能力が、異なるモデル間で「フラット化(平坦化)」のパターンを示すことを見いだした。クロステストの結果、異なるモデルの機器更新による性能向上はわずか3.1%の差しかなく、さらに9B規模のQwen3.5-9Bモデルでさえ、旗艦Claude Opus 4.6に構造的に同等な更新を生成した。

一方で、更新された機器から恩恵を得るエージェントの能力には、単調ではない傾向が見られる。Qwen3-32Bのような弱いモデルは、2つの重大な失敗モードに直面する。すなわち、「equipment activation failure(機器の作動化失敗)」であり、スキルのロード率が強いモデルの96%に対して25.1%にとどまること、そして「equipment compliance failure(機器への準拠失敗)」であり、実行を長く続けると指示の遵守が0.52から0.13へ急落することである。AI研究者のElvis Sarは、彼のコーディング・エージェントの実験でも同様のパターンを確認しており、計算予算は進化エンジンよりも実行(execution)エージェントを優先すべきだと示唆した。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし