أعلنت NVIDIA عن Nemotron 3 Nano Omni متعدد الوسائط مفتوح المصدر

وفقًا لإعلان شركة NVIDIA الرسمي الصادر في 28 أبريل من مدونة الشركة (المؤلف Kari Briski)، أطلقت NVIDIA Nemotron 3 Nano Omni — وهو نموذج متعدد الوسائط مفتوح المصدر، يدمج قدرات الرؤية والصوت واللغة في نموذج واحد، بهدف تزويد أنظمة عُملاء AI بطبقة "إدراك" أقل زمن انتقال وأكثر توفيرًا للتكلفة.

المواصفات الأساسية: 30B-A3B MoE، سياق 256K، إنتاجية أعلى بـ 9 مرات، ويحتل المرتبة الأولى في 6 لوحات تصنيف

الهندسة المعمارية الرئيسية:

30B-A3B hybrid mixture-of-experts (إجمالي المعلمات 30B، تفعيل 3B)

دمج ترميز Conv3D و EVS

طول سياق 256K

المدخلات: النص، الصور، الصوت، الفيديو، المستندات، الجداول، شاشات GUI

المخرجات: النص

مؤشرات الأداء: تحقيق إنتاجية أعلى بـ 9 مرات مقارنةً ببقية نماذج omni مفتوحة المصدر الأخرى ضمن نفس مستوى التفاعلية؛ والتمكن من الحصول على المركز الأول في 6 لوحات تصنيف معيارية عبر ثلاث فئات رئيسية هي: ذكاء المستندات، فهم الفيديو، وفهم الصوت (لم تذكر NVIDIA درجاتًا محددة، وتوجه القارئين إلى مدونة المطورين للاطلاع على التفاصيل).

وضعت NVIDIA Nemotron 3 Nano Omni في موقع "العيون والأذنين" ضمن أنظمة العملاء (agent). ويمكن أن يتكامل مع نماذج من نفس العائلة مثل Nemotron 3 Super (تنفيذ عالي التردد) وNemotron 3 Ultra (تخطيط معقد)، كما يمكنه التوافق مع نماذج سحابية من جهات خارجية. تشمل ثلاثة سيناريوهات تطبيقية نموذجية للـ agent:

وكيل استخدام الكمبيوتر (Computer Use Agent): استدلال بصري بدقة أصلية 1920×1080

ذكاء المستندات: استدلال عبر الرسومات والجداول واللقطات والمداخلات متعددة الوسائط

فهم الصوت/الفيديو: دمج الكلام واللقطات والتسجيلات في سلسلة استدلال واحدة

تشكيلة الشركات المعتمِدة: Foxconn، Palantir ينضمان، وH Company يصرّح باسم رئيسه التنفيذي

تُميّز NVIDIA في إعلانها بوضوح بين "اعتماد قيد الإنتاج" و"تقييم جارٍ":

اعتماد قيد الإنتاج: Aible، Applied Scientific Intelligence (ASI)، Eka Care، هوانجهاي (Foxconn)، H Company، Palantir، Pyler

تقييم جارٍ: Amdocs، Dell، Docusign، Infosys، IQVIA، Lila، Oracle، Quantiphi، TCS، Zefr وغيرها

صرّح الرئيس التنفيذي لشركة H Company Gautier Cloix في الإعلان بالاسم: "To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before." ترجمة: "لبناء عملاء مفيدين، لا يمكنك الانتظار لثوانٍ حتى يقوم النموذج بتفسير الشاشة. بالاعتماد على Nemotron 3 Nano Omni، يمكن لعملائنا تفسير تسجيلات شاشات Full HD بسرعة — وهو ما لم يكن ممكنًا عمليًا من قبل."

استراتيجية الانفتاح وخطط النشر: weights / datasets / أساليب التدريب كلها منشورة علنًا

عند الإطلاق، كشفت NVIDIA أيضًا بشكل علني:

أوزان النموذج

مجموعة بيانات التدريب

تقنيات التدريب/المنهجيات

وتشمل مسارات النشر ثلاث طبقات:

محطات عمل محلية: NVIDIA DGX Spark، DGX Station

خدمات NIM المصغّرة: build.nvidia.com

منصات الطرف الثالث: Hugging Face، OpenRouter، إضافة إلى توفير عبر أكثر من 25 شريكًا سحابيًا من NVIDIA، ومنصات الاستدلال ومقدمي خدمات السحابة

أما الأدوات المخصصة فتُستخدم من خلال NVIDIA NeMo. في العام الماضي، جمعت عائلة Nemotron 3 (Nano/Super/Ultra) أكثر من 50 مليون عملية تنزيل على Hugging Face، ويقوم Omni هذه المرة بتوسيع قدرات هذه العائلة إلى مجالات متعددة الوسائط وagentic.

ظهرت هذه المقالة التي نشرتها NVIDIA حول Nemotron 3 Nano Omni مفتوح المصدر متعدد الوسائط لأول مرة في 链新闻 ABMedia.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات