Uji coba battle royale LLM OpenRouter: Grok 4.1 Fast menjuarai dengan 13 kemenangan

2026-06-18 02:19:46

Pada 4 Juni, Jacky Liang, kepala pengembangan relasi di OpenRouter, menempatkan 11 model bahasa skala besar arus utama ke peta battle royale seluas 400 meter persegi yang ia buat dengan Canvas 2D, untuk uji coba langsung sebanyak 30 pertandingan. Hasilnya, Grok 4.1 Fast dari xAI meraih juara dengan 13 kemenangan, dengan biaya per kemenangan hanya 0,97 dolar AS.

Grok 4.1 Fast Juara dengan 13 Kemenangan, Tingkat Kemenangan 43%, Biaya per Kemenangan 0,97 Dolar AS

（Sumber: blog OpenRouter）

Berdasarkan data eksperimen Liang, peringkat lengkapnya adalah sebagai berikut (sebagian):

Grok 4.1 Fast: 13 kemenangan (tingkat kemenangan 43%), biaya per kemenangan 0,97 dolar AS

Claude Sonnet 4.6: 5 kemenangan, biaya per kemenangan 26,78 dolar AS

GPT 5.4: 2 kemenangan (38 kill), biaya per kemenangan 61,44 dolar AS (tertinggi di antara 8 model yang meraih kemenangan)

GPT 5.4-mini: 0 kemenangan, menghabiskan 28,68 dolar AS

Kimi K2.6: 0 kemenangan, menghabiskan 24,36 dolar AS

DeepSeek v4 Flash: 0 kemenangan, menghabiskan 4,11 dolar AS; biaya per kill terendah (0,26 dolar AS), 16 kill, namun tak pernah memenangkan babak final

Liang menjelaskan bahwa setiap model memiliki dua berkas yang dapat diedit, yaitu soul.md (pengaturan kepribadian) dan memory.md (catatan taktik), sehingga model dapat belajar dan menyesuaikan strategi di antara pertandingan; model berpartisipasi secara anonim dengan huruf A hingga L, tanpa mengetahui identitas lawan.

Konsep “pajak penyelarasan” yang diajukan Liang: biaya perilaku kooperatif Claude Sonnet 4.6 dalam permainan zero-sum

Dalam laporannya, Liang mengajukan konsep “pajak penyelarasan (alignment tax)”, yang mengacu pada kebiasaan model yang diajarkan saat pelatihan untuk bersikap sopan, bekerja sama, dan menghindari menyakiti; kebiasaan-kebiasaan ini justru menjadi beban dalam permainan zero-sum.

Claude Sonnet 4.6 adalah contoh paling khas: dalam Game 8, selama 50 putaran pertama empat kali mengusulkan aliansi dan memberi tahu semua orang lokasi penembak; dalam Game 22, menyampaikan kepada lawan “tidak menargetkanmu” lalu tidak menembak; dalam Game 27, berteriak telanjang “ada yang punya spare loot? Aku di ronde ke-12 tanpa senjata”. Tidak ada model yang menanggapi permintaan kerja samanya, namun Claude tetap berulang kali mencoba. Akibatnya, 7 kali tanpa kill dan 8 kali mati di zona racun.

Sebaliknya, Grok tidak memiliki “rem” seperti itu dalam pertandingan; dalam beberapa laga berhasil menemukan taktik tabrak-menabrak kendaraan, menuliskannya ke soul.md untuk optimalisasi berkelanjutan, dan menjalankan sampai tuntas dalam 30 pertandingan.

Penjelasan metodologi Liang dan batasannya: jenis tugas menentukan model terbaik

Liang menekankan dalam laporan bahwa ini tidak berarti Grok adalah “model yang lebih baik” begitu saja: “Kalau robot berlari ke arahmu, kamu berharap robot itu adalah Claude atau Grok? Itu tergantung kegunaan robot tersebut.” Ia juga menyebutkan bahwa jika beralih ke format duel maut (hanya menghitung jumlah kill), GPT 5.4 akan menjadi juara, sementara Grok jatuh ke kelompok papan tengah.

Definisi tugas yang berbeda dalam dunia permainan yang sama menghasilkan perbedaan yang sepenuhnya, itulah keterbatasan dari tolok ukur yang ada saat ini. Liang mengungkapkan bahwa OpenRouter sedang mengembangkan fungsi routing tugas yang lebih canggih: sistem bisa memilih model yang paling cocok secara otomatis berdasarkan konteks latar tugas tertentu, bukan bergantung pada peringkat papan skor.

FAQ

Apa yang dimaksud secara spesifik dengan konsep “pajak penyelarasan” Liang?

Berdasarkan laporan Liang, “pajak penyelarasan (alignment tax)” adalah biaya yang dibayar LLM selama proses pelatihan untuk tampil sopan, bekerja sama, dan menghindari menyakiti. Kebiasaan latihan ini menjadi keunggulan dalam skenario kolaboratif, tetapi dalam permainan zero-sum (seperti battle royale), sikap hati-hati “tanya dulu baru bertindak” membuat model kehilangan momen menyerang dan justru dieliminasi oleh lawan yang lebih agresif. Liang menjelaskan konsep ini lewat catatan perilaku Claude yang spesifik saat berada di arena.

Mengapa GPT 5.4 membunuh paling banyak tetapi hanya meraih kemenangan paling sedikit?

Berdasarkan data eksperimen Liang, GPT 5.4 menempati urutan teratas di antara semua model dalam jumlah kill sepanjang ronde (38 kill), tetapi hanya meraih 2 kemenangan; biaya per kemenangan sebesar 61,44 dolar AS (tertinggi di antara 8 model yang meraih kemenangan). Liang mengatakan ini mencerminkan masalah “Kill tidak sama dengan Win”: mekanisme kemenangan battle royale adalah bertahan sampai akhir, bukan membunuh terbanyak. Jika memakai format duel maut yang hanya menghitung jumlah kill, GPT 5.4 akan menjadi juara, dan Grok akan jatuh ke kelompok papan tengah.

Bagaimana biaya dan pemilihan model pada eksperimen ini ditentukan?

Liang menyatakan bahwa seluruh eksperimen 30 pertandingan total menghabiskan 482 dolar AS untuk biaya inferensi. Dari itu, ia memperkirakan jika menambahkan model flagship seperti Opus 4.7, GPT-5.5, atau Gemini Ultra, biaya untuk 30 pertandingan akan mencapai sekitar 3.000 dolar AS, sehingga ia mengunci model tingkat menengah hingga tinggi sebagai peserta. Pengaturan eksperimen: setiap model dianonimkan dengan huruf dan tidak mengetahui identitas lawan; Liang sebagai pembawa acara tidak ikut campur dalam tindakan apa pun.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

16jam yang lalu

OpenAI Merilis Kerangka Simulasi Deployment untuk Memprediksi Risiko Misalignment GPT-5, Error Median 1,5x

20jam yang lalu

xAI Meluncurkan Grok Imagine Video 1.5, Memangkas Waktu Rendering 720p Menjadi 25 Detik dari 40+ Detik

21jam yang lalu

OpenAI Membukukan Pendapatan $13,07 miliar dan Rugi Bersih $38,53 miliar untuk 2025