Netflix、VOIDを発表：物理的に一貫性のある動画オブジェクト除去のためのオープンソースフレームワーク

2026-04-06 13:43:53

概要

Netflixは、オブジェクトを動画から削除しつつ、現実的な物理的相互作用を維持するオープンソースAIフレームワーク「VOID」をリリースしました。これは、プロの動画制作向けに、従来のインペインティング（領域補完）ツールに代わるより高度な選択肢を提供します。

大手ストリーミングサービスのNetflixは、VOIDを導入しました。これはオープンソースのフレームワークで、作成される物理的な相互作用を保持しながら、動画からオブジェクトを削除することを目的としています。従来のインペインティングおよびオブジェクト消去ツールで見られていた制限に対処します。

歴史的に、シーンからオブジェクトを削除することは簡単でしたが、その後に環境が現実的に振る舞うようにすることは、大きな課題でした。たとえば、ギターを持った人物を消すと楽器が不自然に宙に浮いたままになり、プールからダイバーを消すと水が動かない状態が残ることがあります。映像効果チームは、こうした問題を従来、手作業で修正してきましたが、手間のかかるプロセスであり、1つのシーンにつき数日から数週間に及ぶこともあります。

VOID（Video Object and Interaction Deletionの略）は、こうした複雑さを解消することを意図しています。欠けたピクセルを埋めるだけの従来の手法とは異なり、システムはオブジェクトが削除された後のシーンについて、物理的に整合した結果を予測します

これを実現するために、複数の技術を組み合わせて活用します。GoogleのGeminiは、削除の影響を受ける領域を特定するためにシーンを分析し、MetaのSAM2は、削除対象のオブジェクトをセグメント化します。これらの出力はクアッドマスク（quadmask）にエンコードされます。これは4つの値からなるマップで、どの領域を消去するか、どの領域が重なり合うか、どの領域が物理的に影響を受けるか、そしてどの領域がそのまま残るかを示します。AlibabaのCogVideoXをベースにしたビデオ拡散モデルが、物理的にもっともらしい方法でシーンを再構築します。オプションとして2回目のパスでは、初期再構築による歪みを補正するためにオプティカルフローを適用します。

動画制作における物理的に整合したオブジェクト除去の実演

VOIDのデモでは説得力のある結果が示されています。保持者を削除すると風船が自然に上昇し、無関係なブロックを削除してもブロックは安定性を維持し、人物を消した後でもプールの表面は影響を受けません。25人の被験者による嗜好調査では、VOIDが64.8％の頻度で選ばれ、主要な商用代替であるRunwayを上回りました。Runwayは18.4％にとどまりました。

今回のリリースは、Netflix Researchによる初の一般公開AIツールです。Apache 2.0のもとでライセンスされているVOIDは商用利用が可能で、Hugging Faceでホストされています。ハードウェア要件により現在はアクセスが制限されており、モデルを実行するには40GBのVRAMを搭載したGPUが必要です。ただし、今後の最適化やインフラコストの引き下げによって、利用可能性が広がる可能性があります。VOIDは、動画制作技術の転換を示すもので、単なる消去ツールから、シーンを理解し現実的に再構築できるシステムへと移行します。これは、プロのワークフローに大きな影響をもたらす開発です。