Meituan Open Source LongCat-Next: Pemahaman Visual, Generasi, dan Suara Terpadu dengan 3B Parameter

BlockBeatNews

Menurut pemantauan 1M AI News, tim Meituan Longmao merilis LongCat-Next, sebuah model multimodal asli berbasis arsitektur MoE dengan 3B parameter aktif, yang menyatukan lima kemampuan dalam satu kerangka autoregressive tunggal: pemahaman teks, visual, generasi gambar, pemahaman suara, dan sintesis suara. Model dan tokenizer pendukungnya dirilis dengan lisensi MIT, dan bobotnya sudah tersedia di HuggingFace.

Desain inti LongCat-Next adalah paradigma DiNA (Discretely Native Autoregressive): dengan merancang tokenizer dan decoder yang cocok untuk setiap modalitas, mengubah sinyal visual dan audio menjadi token diskret, berbagi ruang embedding yang sama dengan teks, dan menyelesaikan semua tugas melalui prediksi token berikutnya secara seragam. Komponen kunci di sisi visual, dNaViT (Vision Transformer resolusi asli diskret), mengekstrak fitur gambar menjadi “kata visual”, mendukung tokenisasi dan decoding dinamis, tetap mempertahankan kualitas generasi gambar yang kuat meskipun dikompresi hingga 28 kali lipat, terutama dalam rendering teks.

Dalam perbandingan model dengan jumlah parameter aktif yang setara (A3B), performa utama LongCat-Next adalah sebagai berikut:

  1. Pemahaman visual: MMMU-Pro 60.3 (Qwen3-Omni 57.0, GPT5-minimal 62.7), MathVista 83.1 (Qwen3-Omni 75.9, GPT5-minimal 50.9), MathVision 64.7 (mengungguli semua model pembanding), DocVQA 94.2
  2. Generasi gambar: GenEval 84.44, LongText-EN 93.15 (FLUX.1-dev 60.70, Emu-3.5 97.60)
  3. Pemrograman: SWE-Bench 43.0 (Kimi-Linear-48B 32.8, Qwen3-Next-80B 37.6)
  4. Pemanggilan alat Agent: Tau2-Retail 73.68 (Qwen3-Next 57.3), Tau2-Telecom 62.06 (Qwen3-Next 13.2)

Dalam perbandingan model yang menggabungkan pemahaman dan generasi secara seragam, skor MMMU LongCat-Next mencapai 70.6, mengungguli NEO-unify (68.9), dan secara signifikan melampaui solusi model seragam sebelumnya seperti BAGEL (55.3) dan Ovis-U1 (51.1). Performa SWE-Bench 43.0 dan rangkaian alat Tau2 juga menunjukkan bahwa arsitektur multimodal terpadu ini tidak mengorbankan kemampuan teks murni maupun kemampuan Agent.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar