Inception Labs' Mercury 2 Meraih Skor 90 pada AIME 2026, Mengungguli DiffusionGemma dari Google

2026-06-21 16:12:51

Inception Labs memperkenalkan Mercury 2 pada Kamis, memposisikannya sebagai model bahasa penalaran tercepat di dunia dengan kecepatan sekitar 1.000 token per detik. Model ini meraih skor 90 pada benchmark AIME 2026, mengungguli DiffusionGemma buatan Google yang baru dirilis, yang mencetak 69,1% pada pengujian yang sama sekaligus memiliki kecepatan generasi yang serupa. Kedua model menggunakan generasi paralel berbasis difusi, bukan pemrosesan token berurutan, yang mencerminkan pergeseran arsitektur industri ke metode inferensi yang lebih cepat.

Mercury 2 Mengungguli DiffusionGemma di Benchmark Matematika

Mercury 2 menghasilkan sekitar 1.000 token per detik—potongan teks yang dibaca dan ditulis model AI—dibandingkan kira-kira 89 token per detik untuk Claude Haiku 4,5 Reasoning milik Anthropic, dan 71 untuk GPT-5 Mini milik OpenAI, menurut pengumuman Inception Labs. Pada AIME 2026, yang dibangun dari soal-soal nyata American Invitational Mathematics Examination dan dinilai sebagai persentase jawaban yang diselesaikan dengan benar, Mercury 2 mencapai 90%. Google menguji DiffusionGemma pada kumpulan soal yang sama, dengan skor 69,1%, sementara Gemma 4 non-difusi standar mencetak 88,3% pada pengujian yang sama.

Di GPQA, benchmark sains level PhD yang dinilai dengan cara yang sama, kedua model hampir seri: Mercury 2 77% berbanding DiffusionGemma 73,2%. Panduan pengembang Google merekomendasikan Gemma 4 standar untuk aplikasi yang menuntut kualitas maksimum, sambil mengakui DiffusionGemma tertinggal darinya di seluruh lini. DiffusionGemma gratis dan open-weight di Hugging Face. Mercury 2 adalah model API berbayar dengan bobot tertutup.

Model Difusi Menggantikan Generasi Token Berurutan

Kedua model meninggalkan pendekatan seperti mesin tik untuk menulis. Chatbot standar menulis satu kata, memeriksa apa yang baru saja ditulisnya, lalu menulis kata berikutnya, berulang hingga jawaban selesai. Model difusi justru mengisi satu blok teks dengan token placeholder acak lalu menghapus noise tersebut dalam beberapa putaran paralel—trik yang sama yang mengubah gambar statis menjadi foto pada generator gambar seperti Stable Diffusion—hingga seluruh blok terkunci menjadi respons yang selesai sekaligus.

Augment Code Melaporkan Pengurangan Latensi 82% di Produksi

Augment Code, perusahaan agen pengkodean berbasis AI, menukar Mercury 2 dengan Claude Opus 4,7 milik Anthropic pada subagent context-compaction dan melihat penurunan latensi 82% serta pemotongan biaya 90%, sambil melaporkan kualitas output yang sama, menurut studi kasus bersama.

Inception Labs Mengamankan Pendanaan Putaran 50 Juta Dolar AS

Inception Labs menghimpun 50 juta dolar AS dalam pendanaan dengan dukungan dari lengan ventura Nvidia serta investor individual Andrew Ng dan Andrej Karpathy. Startup ini dibangun di atas riset dari pendirinya Stefano Ermon, profesor Stanford yang ikut menulis beberapa teknik difusi berbasis skor yang menjadi penggerak generator gambar modern saat ini.

Generasi Paralel Memungkinkan Arsitektur Sistem Multi-Agent

Sistem AI kompleks adalah orkestra asisten khusus: satu untuk penalaran mendalam, beberapa untuk peringkasan cepat, perutean, pencarian alat, dan pemeriksaan output. Model berurutan membuat pemanggilan utilitas tersebut mahal dan lambat. Model difusi paralel membuat pemanggilan itu cukup murah dan cepat untuk digunakan secara luas. Mercury 2 masih berupa API/cloud, dan ekosistem lengkap—runtime lokal, framework agen—masih mengejar.

Alur Kerja yang Peka terhadap Kecepatan Diuntungkan oleh Pendekatan Difusi

Contoh penggunaannya mencakup pemrograman real-time di mana model tetap mengikuti perubahan, pengkodean multi-agent atau sistem dukungan yang melibatkan banyak panggilan subcepat, antarmuka suara yang tidak terasa tertinggal, serta pelengkapan otomatis atau prediksi aksi berikutnya yang peka terhadap latensi. Pada skala besar, penghematan biaya dan energi dari throughput yang lebih tinggi pada perangkat keras standar cepat bertambah, menurut Inception Labs.

FAQ

Apa yang diumumkan Inception Labs pada Kamis? Inception Labs memperkenalkan Mercury 2 pada Kamis, menyebutnya sebagai model bahasa penalaran tercepat di dunia. Model ini menghasilkan sekitar 1.000 token per detik dan meraih skor 90 pada benchmark AIME 2026.

Bagaimana cara Mercury 2 dibandingkan dengan DiffusionGemma milik Google dalam benchmark? Mercury 2 meraih 90 pada AIME 2026, sementara DiffusionGemma milik Google mencetak 69,1% pada pengujian yang sama. Di GPQA, benchmark sains level PhD, Mercury 2 mencapai 77% dibandingkan 73,2% milik DiffusionGemma.

Perbaikan biaya dan latensi apa yang dilaporkan Augment Code? Augment Code menukar Mercury 2 dengan Claude Opus 4,7 milik Anthropic pada subagent context-compaction dan melihat penurunan latensi 82% serta pemotongan biaya 90%, sambil melaporkan kualitas output yang sama, menurut studi kasus bersama.

Lihat Sumber

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

2jam yang lalu

Mercury 2 Inception Labs mencapai 90% pada AIME 2026, mengungguli DiffusionGemma milik Google

13jam yang lalu

Tinygrad Melaporkan GLM 5.2 Mencapai 120 Token per Detik pada Konfigurasi Dual Blackwell Senilai $150.000

15jam yang lalu

Zhipu GLM-5.2 Mengungguli Benchmark Open-Source DeepSWE Dengan Tingkat Keberhasilan 44%, Mengungguli Model Closed-Source Arus Utama