ميتوان تفتح مصدر LongCat-Next: فهم بصري موحد، توليد، ونطق بوسائط 3B من المعلمات

BlockBeatNews

وفقًا لمراقبة 1M AI News، قام فريق ميتوان لونغماو بفتح مصدر LongCat-Next، وهو نموذج متعدد الوسائط أصلي يعتمد على بنية MoE، ويحتوي على 3 مليارات من المعلمات النشطة، ويوحد قدرات النص، والفهم البصري، وتوليد الصور، والفهم الصوتي، والتوليف الصوتي في إطار واحد للتوليف التلقائي الأحادي. النموذج والمحول المرافق له متاحان بموجب ترخيص MIT، وتم إصدار الأوزان على منصة HuggingFace.

التصميم الأساسي لـ LongCat-Next هو نمط DiNA (التوليف التلقائي الأصلي المنفصل): من خلال تصميم محولات ومفاتيح مرتبطة لكل نوع من الوسائط، يتم تحويل الإشارات البصرية والصوتية إلى رموز منفصلة، وتشارك في نفس مساحة التضمين مع النص، ويُكمل جميع المهام باستخدام توقع الرمز التالي الموحد. المكون الرئيسي في الجانب البصري، dNaViT (Transformer الرؤية المنفصل الأصلي الدقة)، يستخرج ميزات الصورة كـ “كلمات بصرية”، ويدعم التقطيع والتشفير الديناميكي، مع الحفاظ على جودة توليد الصور قوية حتى بنسبة ضغط 28 مرة، مع أداء متميز بشكل خاص في عرض النصوص.

مقارنة مع نماذج ذات حجم معلمات نشطة مماثلة (A3B)، الأداء الرئيسي لـ LongCat-Next هو:

  1. الفهم البصري: MMMU-Pro 60.3 (Qwen3-Omni 57.0، GPT5-minimal 62.7)، MathVista 83.1 (Qwen3-Omni 75.9، GPT5-minimal 50.9)، MathVision 64.7 (متفوق على جميع النماذج المقارنة)، DocVQA 94.2
  2. توليد الصور: GenEval 84.44، LongText-EN 93.15 (FLUX.1-dev 60.70، Emu-3.5 97.60)
  3. البرمجة: SWE-Bench 43.0 (Kimi-Linear-48B 32.8، Qwen3-Next-80B 37.6)
  4. استدعاء أدوات الوكيل: Tau2-Retail 73.68 (Qwen3-Next 57.3)، Tau2-Telecom 62.06 (Qwen3-Next 13.2)

في المقارنة الأفقية بين النماذج الموحدة للفهم والتوليد، سجل LongCat-Next درجة MMMU قدرها 70.6، متفوقًا على المركز الثاني NEO-unify (68.9)، متجاوزًا بشكل كبير حلول النماذج الموحدة السابقة مثل BAGEL (55.3) و Ovis-U1 (51.1). كما أن أداء SWE-Bench 43.0 وسلسلة أدوات Tau2 في استدعاء الأدوات يوضح أن هذا الهيكل الموحد متعدد الوسائط لم يُضحِّ بقدرات النص الصريح أو الوكيل.

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات