Riset Terbaru: Model 9B Memperbarui Keterampilan Secara Mandiri untuk Menyamai Kinerja Claude Opus 4.6

Menurut paper terbaru dari Penn State, UCSC, dan Amazon, berjudul "Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents," peneliti menemukan bahwa kemampuan pembaruan perangkat di antara agen AI menunjukkan pola "flattening" di berbagai model. Pengujian silang mengungkap bahwa pembaruan perangkat dari model yang berbeda menghasilkan peningkatan performa yang hanya berbeda 3,1%, bahkan model Qwen3.5-9B berskala 9B tetap menghasilkan pembaruan yang secara struktural setara dengan flagship Claude Opus 4.6.

Namun, kemampuan agen untuk memperoleh manfaat dari perangkat yang diperbarui memperlihatkan tren yang tidak monoton. Model yang lebih lemah seperti Qwen3-32B menghadapi dua mode kegagalan kritis: "equipment activation failure" dengan hanya 25,1% tingkat pemuatan skill dibanding 96% pada model yang lebih kuat, serta "equipment compliance failure," ketika kepatuhan terhadap instruksi turun tajam dari 0,52 menjadi 0,13 selama eksekusi yang diperpanjang. Peneliti AI Elvis Sar mencatat pola serupa dalam eksperimen agen coding-nya, yang menyiratkan bahwa anggaran komputasi sebaiknya memprioritaskan agen eksekusi ketimbang mesin evolusi.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar