Inception Labs memperkenalkan Mercury 2 pada Kamis, memposisikannya sebagai model bahasa penalaran tercepat di dunia dengan kecepatan sekitar 1.000 token per detik. Model ini meraih skor 90 pada benchmark AIME 2026, mengungguli DiffusionGemma buatan Google yang baru dirilis, yang mencetak 69,1% pada pengujian yang sama sekaligus memiliki kecepatan generasi yang serupa. Kedua model menggunakan generasi paralel berbasis difusi, bukan pemrosesan token berurutan, yang mencerminkan pergeseran arsitektur industri ke metode inferensi yang lebih cepat.
Mercury 2 Mengungguli DiffusionGemma di Benchmark Matematika
Mercury 2 menghasilkan sekitar 1.000 token per detik—potongan teks yang dibaca dan ditulis model AI—dibandingkan kira-kira 89 token per detik untuk Claude Haiku 4,5 Reasoning milik Anthropic, dan 71 untuk GPT-5 Mini milik OpenAI, menurut pengumuman Inception Labs. Pada AIME 2026, yang dibangun dari soal-soal nyata American Invitational Mathematics Examination dan dinilai sebagai persentase jawaban yang diselesaikan dengan benar, Mercury 2 mencapai 90%. Google menguji DiffusionGemma pada kumpulan soal yang sama, dengan skor 69,1%, sementara Gemma 4 non-difusi standar mencetak 88,3% pada pengujian yang sama.
Di GPQA, benchmark sains level PhD yang dinilai dengan cara yang sama, kedua model hampir seri: Mercury 2 77% berbanding DiffusionGemma 73,2%. Panduan pengembang Google merekomendasikan Gemma 4 standar untuk aplikasi yang menuntut kualitas maksimum, sambil mengakui DiffusionGemma tertinggal darinya di seluruh lini. DiffusionGemma gratis dan open-weight di Hugging Face. Mercury 2 adalah model API berbayar dengan bobot tertutup.
Model Difusi Menggantikan Generasi Token Berurutan
Kedua model meninggalkan pendekatan seperti mesin tik untuk menulis. Chatbot standar menulis satu kata, memeriksa apa yang baru saja ditulisnya, lalu menulis kata berikutnya, berulang hingga jawaban selesai. Model difusi justru mengisi satu blok teks dengan token placeholder acak lalu menghapus noise tersebut dalam beberapa putaran paralel—trik yang sama yang mengubah gambar statis menjadi foto pada generator gambar seperti Stable Diffusion—hingga seluruh blok terkunci menjadi respons yang selesai sekaligus.
Augment Code Melaporkan Pengurangan Latensi 82% di Produksi
Augment Code, perusahaan agen pengkodean berbasis AI, menukar Mercury 2 dengan Claude Opus 4,7 milik Anthropic pada subagent context-compaction dan melihat penurunan latensi 82% serta pemotongan biaya 90%, sambil melaporkan kualitas output yang sama, menurut studi kasus bersama.
Inception Labs Mengamankan Pendanaan Putaran 50 Juta Dolar AS
Inception Labs menghimpun 50 juta dolar AS dalam pendanaan dengan dukungan dari lengan ventura Nvidia serta investor individual Andrew Ng dan Andrej Karpathy. Startup ini dibangun di atas riset dari pendirinya Stefano Ermon, profesor Stanford yang ikut menulis beberapa teknik difusi berbasis skor yang menjadi penggerak generator gambar modern saat ini.
Generasi Paralel Memungkinkan Arsitektur Sistem Multi-Agent
Sistem AI kompleks adalah orkestra asisten khusus: satu untuk penalaran mendalam, beberapa untuk peringkasan cepat, perutean, pencarian alat, dan pemeriksaan output. Model berurutan membuat pemanggilan utilitas tersebut mahal dan lambat. Model difusi paralel membuat pemanggilan itu cukup murah dan cepat untuk digunakan secara luas. Mercury 2 masih berupa API/cloud, dan ekosistem lengkap—runtime lokal, framework agen—masih mengejar.
Alur Kerja yang Peka terhadap Kecepatan Diuntungkan oleh Pendekatan Difusi
Contoh penggunaannya mencakup pemrograman real-time di mana model tetap mengikuti perubahan, pengkodean multi-agent atau sistem dukungan yang melibatkan banyak panggilan subcepat, antarmuka suara yang tidak terasa tertinggal, serta pelengkapan otomatis atau prediksi aksi berikutnya yang peka terhadap latensi. Pada skala besar, penghematan biaya dan energi dari throughput yang lebih tinggi pada perangkat keras standar cepat bertambah, menurut Inception Labs.
FAQ
Apa yang diumumkan Inception Labs pada Kamis?
Inception Labs memperkenalkan Mercury 2 pada Kamis, menyebutnya sebagai model bahasa penalaran tercepat di dunia. Model ini menghasilkan sekitar 1.000 token per detik dan meraih skor 90 pada benchmark AIME 2026.
Bagaimana cara Mercury 2 dibandingkan dengan DiffusionGemma milik Google dalam benchmark?
Mercury 2 meraih 90 pada AIME 2026, sementara DiffusionGemma milik Google mencetak 69,1% pada pengujian yang sama. Di GPQA, benchmark sains level PhD, Mercury 2 mencapai 77% dibandingkan 73,2% milik DiffusionGemma.
Perbaikan biaya dan latensi apa yang dilaporkan Augment Code?
Augment Code menukar Mercury 2 dengan Claude Opus 4,7 milik Anthropic pada subagent context-compaction dan melihat penurunan latensi 82% serta pemotongan biaya 90%, sambil melaporkan kualitas output yang sama, menurut studi kasus bersama.