نتفليكس تكشف عن VOID: إطار عمل مفتوح المصدر لإزالة كائنات الفيديو بشكل متسق من الناحية الفيزيائية

باختصار

أصدرت Netflix VOID، إطار عمل للذكاء الاصطناعي مفتوح المصدر يزيل الأجسام من الفيديو مع الحفاظ على التفاعلات الفيزيائية الواقعية، مقدمًا بديلًا أكثر تقدمًا لأدوات الـ inpainting التقليدية لإنتاج الفيديو الاحترافي.

Netflix Launches VOID, An Open-Source AI Framework For Physically Consistent Video Object Removalقدمت خدمة البث العالمية Netflix VOID، إطار عمل مفتوح المصدر مصمم لإزالة الأجسام من الفيديو مع الحفاظ على التفاعلات الفيزيائية التي تُحدثها، ومعالجة أوجه القصور التي تظهر في أدوات الـ inpainting التقليدية وأدوات إزالة الكائنات.

تاريخيًا، كانت إزالة جسم من المشهد أمرًا مباشرًا، لكن ضمان أن يتصرف البيئة بشكل واقعي بعد ذلك شكّل تحديات كبيرة. فعلى سبيل المثال، يؤدي حذف شخص يمسك آلة غيتار إلى تعليق الآلة بشكل غير طبيعي، وقد يؤدي إزالة غطاس من حوض إلى ترك الماء دون حركة. كانت فرق المؤثرات البصرية تعالج هذه المشكلات يدويًا تقليديًا، وهي عملية تستغرق وقتًا طويلًا ويمكن أن تمتد من أيام إلى أسابيع لمشهد واحد.

يهدف VOID، وهو اختصار لـ Video Object and Interaction Deletion، إلى حل هذه التعقيدات. بخلاف الطرق التقليدية التي تملأ فحسب البكسلات المفقودة، يقوم النظام بالتنبؤ بنتائج متسقة فيزيائيًا للمشهد بمجرد إزالة الكائن

يعتمد على مزيج من التقنيات لتحقيق ذلك. يقوم Gemini من Google بتحليل المشهد لتحديد المناطق التي ستتأثر بالحذف، بينما تقوم SAM2 من Meta بتقسيم الأجسام التي سيتم إزالتها. يتم ترميز هذه المخرجات في quadmask، وهي خريطة ذات أربع قيم تشير إلى أي المناطق يجب محوها، وأي المناطق تتداخل، وأي المناطق تتأثر فيزيائيًا، وأي المناطق تظل دون مساس. ثم يعيد نموذج انتشار الفيديو المبني على CogVideoX من Alibaba بناء المشهد بطريقة منطقية فيزيائيًا. يطبق تمرير ثانٍ اختياري تدفقًا بصريًا لتصحيح أي تشوهات ناتجة عن عملية إعادة البناء الأولية.

إظهار إزالة كائنات متسقة فيزيائيًا في إنتاج الفيديو

تُظهر عروض VOID نتائج مُقنعة: ترتفع البالونات بشكل طبيعي عند إزالة حاملها، تحافظ الكتل على استقرارها عندما يتم حذف كتل غير ذات صلة، وتبقى أسطح المسبح دون تأثر بعد محو شخص. في دراسة تفضيل بشريـة بمشاركة 25 مشاركًا، تم تفضيل VOID بنسبة 64.8 بالمئة من الوقت، متفوقًا على Runway، وهو بديل تجاري رائد، والذي حقق 18.4 بالمئة فقط.

يمثل هذا الإصدار أول أداة ذكاء اصطناعي متاحة للعامة من Netflix Research. مُرخصة بموجب Apache 2.0، ويمكن استخدام VOID بشكل تجاري وهي مستضافة على Hugging Face. تقيّد متطلبات العتاد حاليًا الوصول، إذ يلزم وجود وحدة معالجة رسومات GPU بسعة 40GB VRAM لتشغيل النموذج، لكن قد يؤدي تحسين الأداء وتخفيض تكاليف البنية التحتية في المستقبل إلى توسيع نطاق الإتاحة. يعكس VOID تحولًا في تكنولوجيا إنتاج الفيديو، بالانتقال من أدوات الإزالة البسيطة إلى أنظمة قادرة على فهم المشاهد وإعادة بنائها بشكل واقعي، وهو تطور له آثار كبيرة على سير العمل الاحترافي.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:0
    0.00%
  • تثبيت