Selon la surveillance de 1M AI News, l’équipe Meituan Longmao a open source LongCat-Next, un modèle multimodal natif basé sur l’architecture MoE, avec 3 milliards de paramètres activés. Ce modèle intègre les capacités de compréhension textuelle, visuelle, de génération d’images, de compréhension vocale et de synthèse vocale dans un cadre autoregressif unique. Le modèle et le tokenizer associé sont open source sous licence MIT, et les poids sont disponibles sur HuggingFace.
La conception centrale de LongCat-Next repose sur le paradigme DiNA (Autoregression Discrète Native) : en concevant des tokenizer et décodeurs spécifiques pour chaque modalité, il convertit les signaux visuels et audio en tokens discrets, partageant le même espace d’intégration que le texte, et réalise toutes les tâches via une prédiction de next-token unifiée. La composante clé du côté visuel, dNaViT (Vision Transformer à résolution native discrète), extrait les caractéristiques d’image en « mots visuels », supporte la segmentation dynamique et la décompression, tout en maintenant une qualité de génération d’image élevée, même à un taux de compression de 28x, avec des performances remarquables notamment dans le rendu de texte.
Par rapport à des modèles de même taille (A3B paramètres activés), LongCat-Next affiche les performances suivantes :
Dans la comparaison horizontale des modèles unifiés pour la compréhension et la génération, le score MMMU de LongCat-Next est de 70.6, en tête devant NEO-unify (68.9), dépassant largement BAGEL (55.3) et Ovis-U1 (51.1), qui étaient auparavant des solutions de modèles unifiés. Les performances sur SWE-Bench 43.0 et la série d’outils Tau2 montrent que cette architecture multimodale unifiée ne sacrifie pas les capacités en texte pur ni celles des agents.