概要Netflixは、オブジェクトを動画から削除しつつ、現実的な物理的相互作用を維持するオープンソースAIフレームワーク「VOID」をリリースしました。これは、プロの動画制作向けに、従来のインペインティング(領域補完)ツールに代わるより高度な選択肢を提供します。大手ストリーミングサービスのNetflixは、VOIDを導入しました。これはオープンソースのフレームワークで、作成される物理的な相互作用を保持しながら、動画からオブジェクトを削除することを目的としています。従来のインペインティングおよびオブジェクト消去ツールで見られていた制限に対処します。歴史的に、シーンからオブジェクトを削除することは簡単でしたが、その後に環境が現実的に振る舞うようにすることは、大きな課題でした。たとえば、ギターを持った人物を消すと楽器が不自然に宙に浮いたままになり、プールからダイバーを消すと水が動かない状態が残ることがあります。映像効果チームは、こうした問題を従来、手作業で修正してきましたが、手間のかかるプロセスであり、1つのシーンにつき数日から数週間に及ぶこともあります。VOID(Video Object and Interaction Deletionの略)は、こうした複雑さを解消することを意図しています。欠けたピクセルを埋めるだけの従来の手法とは異なり、システムはオブジェクトが削除された後のシーンについて、物理的に整合した結果を予測します これを実現するために、複数の技術を組み合わせて活用します。GoogleのGeminiは、削除の影響を受ける領域を特定するためにシーンを分析し、MetaのSAM2は、削除対象のオブジェクトをセグメント化します。これらの出力はクアッドマスク(quadmask)にエンコードされます。これは4つの値からなるマップで、どの領域を消去するか、どの領域が重なり合うか、どの領域が物理的に影響を受けるか、そしてどの領域がそのまま残るかを示します。AlibabaのCogVideoXをベースにしたビデオ拡散モデルが、物理的にもっともらしい方法でシーンを再構築します。オプションとして2回目のパスでは、初期再構築による歪みを補正するためにオプティカルフローを適用します。## 動画制作における物理的に整合したオブジェクト除去の実演VOIDのデモでは説得力のある結果が示されています。保持者を削除すると風船が自然に上昇し、無関係なブロックを削除してもブロックは安定性を維持し、人物を消した後でもプールの表面は影響を受けません。25人の被験者による嗜好調査では、VOIDが64.8%の頻度で選ばれ、主要な商用代替であるRunwayを上回りました。Runwayは18.4%にとどまりました。今回のリリースは、Netflix Researchによる初の一般公開AIツールです。Apache 2.0のもとでライセンスされているVOIDは商用利用が可能で、Hugging Faceでホストされています。ハードウェア要件により現在はアクセスが制限されており、モデルを実行するには40GBのVRAMを搭載したGPUが必要です。ただし、今後の最適化やインフラコストの引き下げによって、利用可能性が広がる可能性があります。VOIDは、動画制作技術の転換を示すもので、単なる消去ツールから、シーンを理解し現実的に再構築できるシステムへと移行します。これは、プロのワークフローに大きな影響をもたらす開発です。
Netflix、VOIDを発表:物理的に一貫性のある動画オブジェクト除去のためのオープンソースフレームワーク
概要
Netflixは、オブジェクトを動画から削除しつつ、現実的な物理的相互作用を維持するオープンソースAIフレームワーク「VOID」をリリースしました。これは、プロの動画制作向けに、従来のインペインティング(領域補完)ツールに代わるより高度な選択肢を提供します。
歴史的に、シーンからオブジェクトを削除することは簡単でしたが、その後に環境が現実的に振る舞うようにすることは、大きな課題でした。たとえば、ギターを持った人物を消すと楽器が不自然に宙に浮いたままになり、プールからダイバーを消すと水が動かない状態が残ることがあります。映像効果チームは、こうした問題を従来、手作業で修正してきましたが、手間のかかるプロセスであり、1つのシーンにつき数日から数週間に及ぶこともあります。
VOID(Video Object and Interaction Deletionの略)は、こうした複雑さを解消することを意図しています。欠けたピクセルを埋めるだけの従来の手法とは異なり、システムはオブジェクトが削除された後のシーンについて、物理的に整合した結果を予測します
これを実現するために、複数の技術を組み合わせて活用します。GoogleのGeminiは、削除の影響を受ける領域を特定するためにシーンを分析し、MetaのSAM2は、削除対象のオブジェクトをセグメント化します。これらの出力はクアッドマスク(quadmask)にエンコードされます。これは4つの値からなるマップで、どの領域を消去するか、どの領域が重なり合うか、どの領域が物理的に影響を受けるか、そしてどの領域がそのまま残るかを示します。AlibabaのCogVideoXをベースにしたビデオ拡散モデルが、物理的にもっともらしい方法でシーンを再構築します。オプションとして2回目のパスでは、初期再構築による歪みを補正するためにオプティカルフローを適用します。
動画制作における物理的に整合したオブジェクト除去の実演
VOIDのデモでは説得力のある結果が示されています。保持者を削除すると風船が自然に上昇し、無関係なブロックを削除してもブロックは安定性を維持し、人物を消した後でもプールの表面は影響を受けません。25人の被験者による嗜好調査では、VOIDが64.8%の頻度で選ばれ、主要な商用代替であるRunwayを上回りました。Runwayは18.4%にとどまりました。