وفقًا لإعلان شركة NVIDIA الرسمي الصادر في 28 أبريل من مدونة الشركة (المؤلف Kari Briski)، أطلقت NVIDIA Nemotron 3 Nano Omni — وهو نموذج متعدد الوسائط مفتوح المصدر، يدمج قدرات الرؤية والصوت واللغة في نموذج واحد، بهدف تزويد أنظمة عُملاء AI بطبقة "إدراك" أقل زمن انتقال وأكثر توفيرًا للتكلفة.
المواصفات الأساسية: 30B-A3B MoE، سياق 256K، إنتاجية أعلى بـ 9 مرات، ويحتل المرتبة الأولى في 6 لوحات تصنيف
الهندسة المعمارية الرئيسية:
30B-A3B hybrid mixture-of-experts (إجمالي المعلمات 30B، تفعيل 3B)
دمج ترميز Conv3D و EVS
طول سياق 256K
المدخلات: النص، الصور، الصوت، الفيديو، المستندات، الجداول، شاشات GUI
المخرجات: النص
مؤشرات الأداء: تحقيق إنتاجية أعلى بـ 9 مرات مقارنةً ببقية نماذج omni مفتوحة المصدر الأخرى ضمن نفس مستوى التفاعلية؛ والتمكن من الحصول على المركز الأول في 6 لوحات تصنيف معيارية عبر ثلاث فئات رئيسية هي: ذكاء المستندات، فهم الفيديو، وفهم الصوت (لم تذكر NVIDIA درجاتًا محددة، وتوجه القارئين إلى مدونة المطورين للاطلاع على التفاصيل).
وضعت NVIDIA Nemotron 3 Nano Omni في موقع "العيون والأذنين" ضمن أنظمة العملاء (agent). ويمكن أن يتكامل مع نماذج من نفس العائلة مثل Nemotron 3 Super (تنفيذ عالي التردد) وNemotron 3 Ultra (تخطيط معقد)، كما يمكنه التوافق مع نماذج سحابية من جهات خارجية. تشمل ثلاثة سيناريوهات تطبيقية نموذجية للـ agent:
وكيل استخدام الكمبيوتر (Computer Use Agent): استدلال بصري بدقة أصلية 1920×1080
ذكاء المستندات: استدلال عبر الرسومات والجداول واللقطات والمداخلات متعددة الوسائط
فهم الصوت/الفيديو: دمج الكلام واللقطات والتسجيلات في سلسلة استدلال واحدة
تشكيلة الشركات المعتمِدة: Foxconn، Palantir ينضمان، وH Company يصرّح باسم رئيسه التنفيذي
تُميّز NVIDIA في إعلانها بوضوح بين "اعتماد قيد الإنتاج" و"تقييم جارٍ":
اعتماد قيد الإنتاج: Aible، Applied Scientific Intelligence (ASI)، Eka Care، هوانجهاي (Foxconn)، H Company، Palantir، Pyler
تقييم جارٍ: Amdocs، Dell، Docusign، Infosys، IQVIA، Lila، Oracle، Quantiphi، TCS، Zefr وغيرها
صرّح الرئيس التنفيذي لشركة H Company Gautier Cloix في الإعلان بالاسم: "To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before." ترجمة: "لبناء عملاء مفيدين، لا يمكنك الانتظار لثوانٍ حتى يقوم النموذج بتفسير الشاشة. بالاعتماد على Nemotron 3 Nano Omni، يمكن لعملائنا تفسير تسجيلات شاشات Full HD بسرعة — وهو ما لم يكن ممكنًا عمليًا من قبل."
استراتيجية الانفتاح وخطط النشر: weights / datasets / أساليب التدريب كلها منشورة علنًا
عند الإطلاق، كشفت NVIDIA أيضًا بشكل علني:
أوزان النموذج
مجموعة بيانات التدريب
تقنيات التدريب/المنهجيات
وتشمل مسارات النشر ثلاث طبقات:
محطات عمل محلية: NVIDIA DGX Spark، DGX Station
خدمات NIM المصغّرة: build.nvidia.com
منصات الطرف الثالث: Hugging Face، OpenRouter، إضافة إلى توفير عبر أكثر من 25 شريكًا سحابيًا من NVIDIA، ومنصات الاستدلال ومقدمي خدمات السحابة
أما الأدوات المخصصة فتُستخدم من خلال NVIDIA NeMo. في العام الماضي، جمعت عائلة Nemotron 3 (Nano/Super/Ultra) أكثر من 50 مليون عملية تنزيل على Hugging Face، ويقوم Omni هذه المرة بتوسيع قدرات هذه العائلة إلى مجالات متعددة الوسائط وagentic.
ظهرت هذه المقالة التي نشرتها NVIDIA حول Nemotron 3 Nano Omni مفتوح المصدر متعدد الوسائط لأول مرة في 链新闻 ABMedia.