Menurut Beating, peneliti dari University of Waterloo dan Brown University memperkenalkan Planning at Inference, sebuah kerangka penskalaan pada waktu inferensi baru dalam makalah yang diajukan ke ICLR 2026. Kerangka ini menerapkan algoritma Monte Carlo Tree Search (MCTS) milik AlphaGo untuk pertama kalinya pada generasi video berdurasi panjang, mengatasi masalah semantic drift dan akumulasi kesalahan pada metode generasi berurutan tradisional.
Dalam eksperimen menggunakan model Cosmos-Predict2 open-source dari Nvidia, Planning at Inference menghasilkan video yang koheren dengan durasi lebih dari 20 detik. Sistem ini mengungguli metode baseline seperti Greedy Search dan Beam Search dalam ketahanan objek, konsistensi temporal, dan keselarasan teks-video. Dibandingkan dengan model tertutup yang memimpin industri, video yang dihasilkan dengan metode ini berdurasi 18% lebih panjang daripada Sora dan 47% lebih panjang daripada Kling, dengan kualitas visual yang sebanding. Sebagai optimisasi inferensi plug-and-play, kerangka ini tidak memerlukan pelatihan ulang pada model yang mendasarinya.