Meituan open source LongCat-Next : compréhension visuelle, génération et parole unifiées avec 3 milliards de paramètres

BlockBeatNews

Selon la surveillance de 1M AI News, l’équipe Meituan Longmao a open source LongCat-Next, un modèle multimodal natif basé sur l’architecture MoE, avec 3 milliards de paramètres activés. Ce modèle intègre les capacités de compréhension textuelle, visuelle, de génération d’images, de compréhension vocale et de synthèse vocale dans un cadre autoregressif unique. Le modèle et le tokenizer associé sont open source sous licence MIT, et les poids sont disponibles sur HuggingFace.

La conception centrale de LongCat-Next repose sur le paradigme DiNA (Autoregression Discrète Native) : en concevant des tokenizer et décodeurs spécifiques pour chaque modalité, il convertit les signaux visuels et audio en tokens discrets, partageant le même espace d’intégration que le texte, et réalise toutes les tâches via une prédiction de next-token unifiée. La composante clé du côté visuel, dNaViT (Vision Transformer à résolution native discrète), extrait les caractéristiques d’image en « mots visuels », supporte la segmentation dynamique et la décompression, tout en maintenant une qualité de génération d’image élevée, même à un taux de compression de 28x, avec des performances remarquables notamment dans le rendu de texte.

Par rapport à des modèles de même taille (A3B paramètres activés), LongCat-Next affiche les performances suivantes :

  1. Compréhension visuelle : MMMU-Pro 60.3 (Qwen3-Omni 57.0, GPT5-minimal 62.7), MathVista 83.1 (Qwen3-Omni 75.9, GPT5-minimal 50.9), MathVision 64.7 (meilleur parmi tous les modèles comparés), DocVQA 94.2
  2. Génération d’images : GenEval 84.44, LongText-EN 93.15 (FLUX.1-dev 60.70, Emu-3.5 97.60)
  3. Programmation : SWE-Bench 43.0 (Kimi-Linear-48B 32.8, Qwen3-Next-80B 37.6)
  4. Appel d’outils Agent : Tau2-Retail 73.68 (Qwen3-Next 57.3), Tau2-Telecom 62.06 (Qwen3-Next 13.2)

Dans la comparaison horizontale des modèles unifiés pour la compréhension et la génération, le score MMMU de LongCat-Next est de 70.6, en tête devant NEO-unify (68.9), dépassant largement BAGEL (55.3) et Ovis-U1 (51.1), qui étaient auparavant des solutions de modèles unifiés. Les performances sur SWE-Bench 43.0 et la série d’outils Tau2 montrent que cette architecture multimodale unifiée ne sacrifie pas les capacités en texte pur ni celles des agents.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire