Kepala Qianwen, Lin Junyang, setelah mengundurkan diri, merilis artikel panjang pertama: Industri AI sedang beralih dari "melatih model" ke "melatih Agen"

BlockBeatNews

Menurut pemantauan 1M AI News, mantan kepala teknologi Qianwen dari Alibaba, Lin Junyang, mempublikasikan artikel panjang di X, menjelaskan pandangannya tentang pergeseran industri AI dari “berpikir deduktif” (reasoning thinking) ke “berpikir sebagai agen” (agentic thinking). Ini adalah kali pertama dia mengemukakan pandangan teknis setelah meninggalkan tim Qianwen pada awal Maret.

Lin Junyang berpendapat bahwa isu utama hingga paruh pertama 2025 adalah berpikir deduktif, yaitu bagaimana membuat model menghabiskan lebih banyak daya komputasi saat proses penalaran, melatih dengan sinyal reward yang lebih kuat, dan mengendalikan kedalaman penalaran. Namun, tahap berikutnya adalah berpikir sebagai agen: model tidak lagi hanya “berpikir lebih lama”, melainkan “berpikir untuk bertindak”, terus-menerus memperbaiki rencana melalui interaksi dengan lingkungan.

Dalam tulisannya, dia secara jujur meninjau pilihan teknologi tim Qianwen. Qwen3 mencoba menggabungkan mode berpikir dan mode instruksi dalam satu model, mendukung anggaran penalaran yang dapat disesuaikan, tetapi dalam praktiknya ditemukan bahwa distribusi data dan tujuan perilaku dari kedua mode sangat berbeda: mode instruksi mengejar kesederhanaan, latensi rendah, dan kepatuhan format, sementara mode berpikir berusaha menginvestasikan lebih banyak token pada masalah sulit dan mempertahankan struktur penalaran tengah. Jika perencanaan data tidak cukup rinci, hasilnya seringkali mediocre di kedua ujung. Oleh karena itu, seri Qwen 2507 akhirnya merilis versi Instruct dan Thinking secara terpisah (dengan spesifikasi 30B dan 235B) agar masing-masing dapat dioptimalkan. Sebaliknya, Anthropic mengambil pendekatan yang berlawanan, dengan Claude 3.7 Sonnet yang sejak awal menyatakan bahwa penalaran harus menjadi kemampuan terintegrasi, bukan model terpisah, dan pengguna dapat mengatur anggaran berpikir sendiri.

Lin Junyang mengusulkan bahwa infrastruktur pembelajaran penguatan agen (agent reinforcement learning) jauh lebih kompleks daripada RL deduktif tradisional. Rollout RL deduktif biasanya berupa trajektori mandiri yang dapat diverifikasi dengan validator statis; sedangkan RL agen membutuhkan model yang terintegrasi dengan seluruh rangkaian alat (browser, terminal, sandbox, API, sistem memori), dan pelatihan serta penalaran harus dipisahkan agar throughput rollout tidak runtuh. Dia menempatkan desain lingkungan setara pentingnya dengan arsitektur model, menyebut bahwa “pembangunan lingkungan sedang bertransformasi dari proyek sampingan menjadi kategori startup yang nyata.”

Dia memprediksi bahwa berpikir sebagai agen akan menjadi bentuk utama pemikiran, bahkan mungkin menggantikan monolog internal panjang dalam penalaran statis tradisional. Namun, risiko terbesar adalah hacking reward: begitu model mendapatkan akses ke alat nyata, ia mungkin belajar mencari jawaban langsung selama pelatihan RL, memanfaatkan informasi masa depan dari repository, atau menemukan jalan pintas untuk menyelesaikan tugas. Artikel ini menutup dengan menyatakan bahwa keunggulan kompetitif di masa depan akan bergantung pada algoritma RL yang lebih baik, desain lingkungan yang lebih baik, integrasi pelatihan dan inferensi yang lebih erat, serta kemampuan sistem kolaborasi multi-agen.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar