Laut 1M AI News Monitoring hat das Meituan Longmao-Team LongCat-Next open source gestellt, ein natives multimodales Modell mit MoE-Architektur und 3 Milliarden aktivierten Parametern, das unter einer einzigen autoregressiven Framework die Fähigkeiten Textverständnis, visuelle Wahrnehmung, Bildgenerierung, Sprachverständnis und Sprachsynthese vereint. Das Modell und der zugehörige Tokenizer sind unter der MIT-Lizenz open source, die Gewichte sind bereits auf HuggingFace verfügbar.
Das Kernkonzept von LongCat-Next ist das DiNA (Discrete Native Autoregressive) Paradigma: Durch die Entwicklung von passenden Tokenizern und Decodern für jede Modalität werden visuelle und Audio-Signale in diskrete Tokens umgewandelt, die im selben Einbettungsraum wie Text geteilt werden. Mit einer einheitlichen Next-Token-Vorhersage werden alle Aufgaben erledigt. Das Schlüsselkomponent im visuellen Bereich, dNaViT (Discrete Native Resolution Vision Transformer), extrahiert Bildmerkmale zu „visuellen Wörtern“, unterstützt dynamisches Tokenizing und Decoding und bewahrt bei einer Komprimierungsrate von 28:1 eine hohe Bildgenerierungsqualität, insbesondere bei Textdarstellung.
Im Vergleich mit Modellen ähnlicher Parametergröße (A3B) zeigt LongCat-Next folgende Hauptleistungen:
Im Vergleich der Fähigkeiten in Verständnis und Generierung als einheitliches Modell erzielt LongCat-Next mit MMMU 70,6 Punkte, deutlich vor dem Zweitplatzierten NEO-unify (68,9), und übertrifft erheblich BAGEL (55,3) und Ovis-U1 (51,1), frühere Lösungen für einheitliche multimodale Modelle. Auch die Leistungen bei SWE-Bench 43,0 und den Tool-Call-Benchmarks der Tau2-Serie zeigen, dass diese multimodale Architektur die Fähigkeiten in reinem Text- und Agenten-Bereich nicht einschränkt.