Papan peringkat terbaru SWE-rebench: Model AI Tiongkok menguasai empat belas peringkat teratas, GLM-5 berada di peringkat ketiga

Gate News berita, pada 25 Maret, pemelihara pengujian dasar SWE-rebench Ibragim mengumumkan pembaruan daftar peringkat pada 23 Maret. SWE-rebench adalah pengujian dasar waktu nyata yang mengambil tugas rekayasa perangkat lunak baru dari GitHub setiap bulan, dan model tidak dapat mengoptimalkan diri sebelumnya untuk soal tersebut. Pembaruan kali ini membatalkan demonstrasi contoh dan batas 80 langkah sebelumnya, serta menambahkan tugas penilaian bantu.

Peringkat sepuluh besar terbaru: 1. Claude Opus 4.6 (65,3%); 2. GPT-5.2 medium (64,4%); 3. GLM-5 (62,8%); 4. GPT-5.4 medium (62,8%); 5. Gemini 3.1 Pro Preview (62,3%); 6. DeepSeek-V3.2 (60,9%); 7. Claude Sonnet 4.6 (60,7%); 8. Claude Sonnet 4.5 (60,0%); 9. Qwen3.5-397B-A17B (59,9%); 10. Step-3.5-Flash (59,6%).

Model open source dari Zhipu AI, GLM-5 (Lisensi MIT), dengan 62,8% menduduki peringkat ketiga dan merupakan model open source tertinggi di daftar tersebut. Empat dari sepuluh besar adalah model dari Tiongkok, selain GLM-5, ada DeepSeek-V3.2 dari DeepSeek (keenam), Qwen3.5-397B-A17B dari Alibaba Tongyi Qianwen (kesembilan), dan Step-3.5-Flash dari Zhaoyue Xingchen (kesepuluh). Kepala global Z.ai dari Zhipu, Li Zixuan, menyatakan bahwa saat pembaruan SWE-rebench terakhir, semua model dari Tiongkok berada di luar sepuluh besar.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Kepemilikan Bitcoin Melampaui Emas di Kalangan Orang Amerika untuk Pertama Kalinya

Lebih banyak orang Amerika sekarang memiliki Bitcoin daripada emas, menyoroti pergeseran besar dalam preferensi aset seiring popularitas Bitcoin melonjak. Entitas AS mendominasi kepemilikan Bitcoin global, dan adopsi institusional terus meningkat, dengan perusahaan-perusahaan besar masuk ke pasar dan legislasi berpotensi memperkuat status legal Bitcoin.

GateNews5jam yang lalu

Korea Selatan Menyumbang 30% dari Volume Perdagangan Kripto Global, Didominasi oleh Altcoin

Korea Selatan mendominasi perdagangan kripto global dengan volume 30%, terutama pada altcoin, sementara pasar Jepang menunjukkan likuiditas Bitcoin yang lebih tinggi tetapi volume perdagangan keseluruhan yang lebih rendah.

GateNews04-15 09:02

Pendapatan Protokol TRON Q1 2026 Mencapai $82.69M, Menduduki Peringkat Kedua di Seluruh Rantai

Pesan Berita Gerbang, pendapatan protokol TRON mencapai $82.69M pada Q1 2026, peringkat kedua hanya setelah Hyperliquid di antara semua rantai. Pada saat yang sama, TVL TRON mencapai $4.52B.

GateNews04-15 04:14

RAVE melonjak tajam 135%, menyentuh rekor tertinggi sepanjang masa, kontrak likuidasi paksa; seluruh jaringan menempati peringkat ketiga

Token kripto RAVE melonjak tajam pada 15 April hingga 19,2 dolar, dengan kenaikan 24 jam sebesar 135,1%. Data likuidasi menunjukkan sebagian besar posisi short dipaksa untuk ditutup, sehingga terjadi short squeeze. Lembaga pemantau menyebut dugaan bahwa pembuat pasar memanfaatkan mekanisme manipulasi untuk menarik short masuk, menghadapi masalah konsentrasi 90% keping. Risiko ini membuat investor ritel perlu bersikap hati-hati.

MarketWhisper04-15 02:20

$APE, $IMX & $PIXEL Lead Aktivitas Sosial Gaming Kripto Hari Ini

Sektor game kripto berkembang pesat di media sosial, dengan $APE, $IMX, dan $PIXEL memimpin dalam keterlibatan. $APE mencapai 1,3K unggahan, sementara $ENJ dan $FLOKI juga menunjukkan aktivitas yang signifikan, menyoroti minat komunitas yang kuat.

BlockChainReporter04-13 18:05
Komentar
0/400
Tidak ada komentar