أعلنت NVIDIA عن Nemotron 3 Nano Omni مفتوح المصدر متعدد الوسائط

استنادًا إلى إعلان NVIDIA الرسمي الصادر في 28 أبريل (بواسطة Kari Briski)، أطلقت NVIDIA Nemotron 3 Nano Omni، وهو نموذج متعدد الوسائط مفتوح المصدر يدمج قدرات الرؤية والصوت واللغة في نموذج واحد، بهدف تزويد أنظمة وكلاء AI بطبقة “استشعار” أقل كلفة وأكثر انخفاضًا في زمن التأخير.

المواصفات الأساسية: 30B-A3B MoE، سياق 256K، إنتاجية أعلى بـ9 أضعاف، وتصدّر 6 قوائم تصنيف

الهندسة المعمارية الرئيسية:

30B-A3B hybrid mixture-of-experts (إجمالي 30B معامل، وتفعيل 3B)

دمج Conv3D وEVS ترميز

طول سياق 256K

المدخلات: نص، صور، صوت، فيديو، ملفات، مخططات، شاشات GUI

المخرجات: نص

مؤشرات الأداء: يحقق إنتاجية أعلى بـ9 أضعاف مقارنةً ببقية نماذج omni مفتوحة المصدر الأخرى عند مستوى تفاعل مماثل؛ ويتصدر 6 قوائم تصنيف معيارية ضمن ثلاث فئات رئيسية تشمل ذكاء المستندات وفهم الفيديو وفهم الصوت (لم تذكر NVIDIA درجاتًا محددة، ما يوجّه القرّاء إلى مدونة المطورين للاطلاع على التفاصيل).

وضعت NVIDIA Nemotron 3 Nano Omni في موقع “العين والأذن” داخل أنظمة الوكلاء، بحيث يمكنها العمل ضمن نفس عائلة النماذج مع Nemotron 3 Super (تنفيذ عالي التواتر) وNemotron 3 Ultra (تخطيط أعقد)، كما يمكنها التوافق مع نماذج سحابية من جهات طرف ثالث. سيناريوهات تطبيق وكيل نمطية ثلاثة:

وكيل تشغيل الحاسوب (Computer Use Agent): استدلال بصري بدقة أصلية 1920×1080

ذكاء المستندات: استدلال يتعامل عبر الصور والجداول واللقطات وما إلى ذلك من مدخلات وسائط مختلطة

فهم الصوت/الفيديو: دمج الكلام واللقطات والتسجيلات في سلسلة استدلال واحدة

تشكيلة المتبنين: Foxconn، وPalantir، وتصريح مُسمّى من الرئيس التنفيذي لـ H Company

تفرق NVIDIA في إعلانها بوضوح بين “تبنٍّ قيد الإنتاج” و“تقييم جارٍ”:

تبنٍّ قيد الإنتاج: Aible، Applied Scientific Intelligence (ASI)، Eka Care، Foxconn (鴻海)، H Company، Palantir، Pyler

تقييم جارٍ: Amdocs، Dell، Docusign، Infosys، IQVIA، Lila، Oracle، Quantiphi، TCS، Zefr وغيرها

صرّح الرئيس التنفيذي لـ H Company Gautier Cloix في الإعلان بالاسم: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” ترجمتها: “لصنع وكلاء مفيدين، لا يمكنك الانتظار لثوانٍ حتى يفسّر النموذج شاشة. بالاستناد إلى Nemotron 3 Nano Omni، يمكن لوكلائنا تفسير تسجيلات شاشات بدقة Full HD بسرعة — وهو ما لم يكن عمليًا من قبل.”

استراتيجية الانفتاح والتوزيع: الأوزان / مجموعات البيانات / طرق التدريب كلها متاحة علنًا

عند الإطلاق، كشفت NVIDIA أيضًا عن:

أوزان النموذج

مجموعات بيانات التدريب

تقنيات التدريب/المنهجيات

وتشمل قنوات النشر ثلاث طبقات:

محطات العمل المحلية: NVIDIA DGX Spark، DGX Station

خدمات NIM المصغّرة: build.nvidia.com

المنصات التابعة لجهات طرف ثالث: Hugging Face، OpenRouter، مع توفير ذلك أيضًا عبر أكثر من 25 شريكًا سحابيًا من NVIDIA وشركات منصات الاستدلال ومقدمي خدمات السحابة

تُستخدم الأدوات المخصصة عبر NVIDIA NeMo. خلال العام الماضي، تراكمت عمليات تنزيل عائلة Nemotron 3 (Nano/Super/Ultra) على Hugging Face بما يزيد عن 50 مليون مرة، وقد وسّع Omni في هذه المرة قدرات هذه العائلة إلى مجالات متعددة الوسائط وagentic.

ظهرت هذه المقالة التي نشرتها NVIDIA حول Nemotron 3 Nano Omni: نموذج متعدد الوسائط مفتوح المصدر لأول مرة على موقع 鏈新聞 ABMedia.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات