Stanford 推 Agent Island: Model AI di game bergenre Survivor melakukan pengkhianatan strategi dan saling mengeliminasi berdasarkan voting timbal balik

ChainNewsAbmedia

Peneliti Stanford Digital Economy Lab, Connacher Murphy, meluncurkan pada 9 Mei lingkungan penilaian AI baru “Agent Island”, yang membuat AI Agent bersaing, bersekutu, berkhianat, dan saling mengeluarkan pemain dalam game multipemain bergaya Survivor—untuk mengukur perilaku strategis yang tidak bisa ditangkap oleh benchmark statis. Decrypt merangkum: benchmark AI tradisional makin tidak dapat diandalkan—model pada akhirnya akan mempelajari cara menyelesaikan soal, dan data benchmark pun mudah “bocor” ke dalam kumpulan data pelatihan; Agent Island mengubah desainnya menjadi “turnamen eliminasi dinamis”, sehingga model harus mengambil keputusan strategis terhadap agent lain, bukan bisa lolos dengan mengandalkan ingatan jawaban bawaan.

Aturan Agent Island: Agent saling bersekutu, berkhianat, dan melakukan pemungutan suara

Mekanisme inti permainan Agent Island:

Beberapa AI Agent masuk ke arena game yang sama, berperan sebagai peserta bergaya Survivor

Agent harus bernegosiasi untuk bersekutu dengan agent lain, serta saling menukar informasi

Agent dapat menuduh pihak lain atas koordinasi rahasia, dan memanipulasi pemungutan suara selama proses berlangsung

Permainan menggunakan mekanisme eliminasi untuk mengurangi jumlah Agent di dalam arena, dan akhirnya tersisa pemenang

Peneliti mengamati pola perilaku Agent pada tiap tahap, mengekstrak sinyal perilaku seperti “pengkhianatan strategis”, “pembentukan aliansi”, “manipulasi informasi”, dan sebagainya

Inti dari desain ini adalah “tidak bisa dihafal sebelumnya”—karena perilaku Agent lain berubah secara dinamis, sehingga model harus membuat keputusan berdasarkan situasi saat itu, tidak seperti benchmark statis yang bisa mengandalkan ingatan jawaban dari data pelatihan.

Motivasi penelitian: benchmark statis tidak dapat menilai perilaku interaksi antar beberapa Agent

Masalah spesifik yang ditegaskan dalam penelitian Murphy:

Benchmark tradisional mudah mencapai titik jenuh: setelah model dilatih pada tahap lanjut, skor benchmark tidak lagi bisa membedakan antar model

Kontaminasi data benchmark: soal uji muncul dalam korpus pelatihan skala besar, sehingga yang sebenarnya dilakukan model adalah “menghafal jawaban” ketimbang “memahami soal”

Interaksi multipihak adalah skenario nyata saat AI dideploy: di masa depan, sistem Agent mungkin bekerja secara kolaboratif dari banyak model, dan perilaku interaktif menjadi dimensi penilaian baru

Agent Island menyediakan evaluasi dinamis: hasil tiap game berbeda, sehingga sulit dipersiapkan sebelumnya

Perilaku yang diamati peneliti dalam turnamen eliminasi dinamis mencakup bahwa Agent tampak bekerja sama di permukaan, namun diam-diam mengoordinasikan pemungutan suara untuk mengeliminasi lawan yang sama; serta saat dituduh melakukan koordinasi rahasia, mereka menggunakan berbagai dalih untuk mengalihkan perhatian. Perilaku-perilaku ini mirip dengan cara pemain manusia beraksi dalam program Survivor versi nyata.

Sisi ganda dari penelitian: bisa menilai sekaligus bisa digunakan untuk meningkatkan kemampuan menipu

Murphy dalam penelitiannya secara tegas menunjukkan risiko potensial:

Nilai Agent Island: sebelum deployment skala besar, untuk mengidentifikasi kecenderungan penipuan dan manipulasi yang mungkin dimiliki model

Lingkungan yang sama juga dapat dipakai untuk meningkatkan “strategi persuasi dan koordinasi” pada Agent

Jika data riset (log interaksi) dipublikasikan, data itu berpotensi digunakan untuk melatih generasi berikutnya Agent agar lebih mampu melakukan manipulasi

Tim riset sedang menilai cara mencapai keseimbangan antara mempublikasikan hasil penelitian dan mencegah penyalahgunaan

Peristiwa lanjutan yang bisa dilacak: apakah Agent Island akan diperluas menjadi standar penilaian AI yang lazim, apakah tim riset keamanan AI lain (Anthropic, OpenAI, Apollo Research, dll.) mengadopsi pendekatan evaluasi dinamis serupa, dan kebijakan spesifik tim riset terkait “publikasi atau pembatasan log interaksi”.

Artikel Stanford: Agent Island—AI model mengkhianati secara strategis dan saling mengeluarkan pemain dalam game bergaya Survivor pertama kali muncul di Berita Rantai ABMedia.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar