Netflix 公布 VOID:一個用於物理一致性視頻物體移除的開源框架

簡介

Netflix 已發布 VOID,這是一個開源的 AI 框架,能在移除影片中的物體的同時保留逼真的物理互動,提供了比傳統修補(inpainting)工具更進階的選擇,適用於專業影片製作。

Netflix Launches VOID, An Open-Source AI Framework For Physically Consistent Video Object Removal全球串流服務 Netflix 已推出 VOID,這是一個開源框架,旨在移除影片中的物體,同時保留物體所產生的物理互動,並解決傳統 inpainting 與移除物體工具所見的限制。

從歷史上看,從場景中移除物體一直很簡單,但確保移除後環境能夠真實地運作,卻帶來了重大挑戰。舉例來說,刪除正拿著吉他的人的同時,樂器可能會以不自然的方式懸在空中;而從泳池中移除一名潛水員,則可能導致水面沒有受到影響。以往的視覺特效團隊通常會手動修正這些問題,這是耗時的流程,單一鏡頭可能需要數天到數週。

VOID(Video Object and Interaction Deletion 的縮寫)意在解決這些複雜情況。不同於傳統方法僅僅填補缺失像素,該系統會在物體移除後,預測場景中符合物理一致性的結果

它運用多種技術的組合來達成目標。Google 的 Gemini 會分析場景,以辨識刪除後會受到影響的區域,而 Meta 的 SAM2 則會分割出需要移除的物體。這些輸出會被編碼成 quadmask(一個四值地圖),用來指示要刪除哪些區域、哪些區域彼此重疊、哪些區域受到物理影響,以及哪些區域保持不變。建立在 Alibaba 的 CogVideoX 之上的影片擴散模型,會以物理上可信的方式重建場景。可選的第二次處理會套用光流(optical flow),用以修正初次重建造成的任何變形。

在影片製作中示範符合物理一致性的物體移除

VOID 的示範呈現出令人印象深刻的成果:移除握持者後,氣球能自然上升;刪除與之無關的積木後,積木能維持穩定;而當人物被抹除後,泳池表面不受影響。在一項包含 25 位參與者的人類偏好研究中,VOID 以 64.8% 的時間獲得偏好,表現優於 Runway(一個領先的商業替代方案),其僅達到 18.4%。

這次發布是 Netflix Research 首款公開可用的 AI 工具。VOID 授權採用 Apache 2.0,可商業使用,並托管在 Hugging Face 上。目前的硬體需求限制了存取:需要一張 40GB VRAM 的 GPU 才能運行該模型,但未來的最佳化與降低基礎設施成本可能會擴大可用範圍。VOID 代表著影片製作技術的轉變:從單純的抹除工具,走向能夠理解並以現實方式重建場景的系統;而這一發展對專業工作流程具有重大意義。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言
  • 熱門 Gate Fun

    查看更多
  • 市值:$2248.27持有人數:1
    0.00%
  • 市值:$2241.37持有人數:0
    0.00%
  • 市值:$2237.93持有人數:1
    0.00%
  • 市值:$2241.37持有人數:1
    0.00%
  • 市值:$0.1持有人數:0
    0.00%