Meituan Open Source LongCat-Next: 3B-Parameter einheitliches visuelles Verständnis, Generierung und Sprachverarbeitung

BlockBeatNews

Laut 1M AI News Monitoring hat das Meituan Longmao-Team LongCat-Next open source gestellt, ein natives multimodales Modell mit MoE-Architektur und 3 Milliarden aktivierten Parametern, das unter einer einzigen autoregressiven Framework die Fähigkeiten Textverständnis, visuelle Wahrnehmung, Bildgenerierung, Sprachverständnis und Sprachsynthese vereint. Das Modell und der zugehörige Tokenizer sind unter der MIT-Lizenz open source, die Gewichte sind bereits auf HuggingFace verfügbar.

Das Kernkonzept von LongCat-Next ist das DiNA (Discrete Native Autoregressive) Paradigma: Durch die Entwicklung von passenden Tokenizern und Decodern für jede Modalität werden visuelle und Audio-Signale in diskrete Tokens umgewandelt, die im selben Einbettungsraum wie Text geteilt werden. Mit einer einheitlichen Next-Token-Vorhersage werden alle Aufgaben erledigt. Das Schlüsselkomponent im visuellen Bereich, dNaViT (Discrete Native Resolution Vision Transformer), extrahiert Bildmerkmale zu „visuellen Wörtern“, unterstützt dynamisches Tokenizing und Decoding und bewahrt bei einer Komprimierungsrate von 28:1 eine hohe Bildgenerierungsqualität, insbesondere bei Textdarstellung.

Im Vergleich mit Modellen ähnlicher Parametergröße (A3B) zeigt LongCat-Next folgende Hauptleistungen:

  1. Visuelles Verständnis: MMMU-Pro 60,3 (Qwen3-Omni 57,0, GPT5-minimal 62,7), MathVista 83,1 (Qwen3-Omni 75,9, GPT5-minimal 50,9), MathVision 64,7 (bisher das beste aller Vergleichsmodelle), DocVQA 94,2
  2. Bildgenerierung: GenEval 84,44, LongText-EN 93,15 (FLUX.1-dev 60,70, Emu-3.5 97,60)
  3. Programmierung: SWE-Bench 43,0 (Kimi-Linear-48B 32,8, Qwen3-Next-80B 37,6)
  4. Agent-Tool-Aufruf: Tau2-Retail 73,68 (Qwen3-Next 57,3), Tau2-Telecom 62,06 (Qwen3-Next 13,2)

Im Vergleich der Fähigkeiten in Verständnis und Generierung als einheitliches Modell erzielt LongCat-Next mit MMMU 70,6 Punkte, deutlich vor dem Zweitplatzierten NEO-unify (68,9), und übertrifft erheblich BAGEL (55,3) und Ovis-U1 (51,1), frühere Lösungen für einheitliche multimodale Modelle. Auch die Leistungen bei SWE-Bench 43,0 und den Tool-Call-Benchmarks der Tau2-Serie zeigen, dass diese multimodale Architektur die Fähigkeiten in reinem Text- und Agenten-Bereich nicht einschränkt.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare