Платформа Planning at Inference, представленная исследователями из Университета Ватерлоо и Брауновского университета, была введена в работе, поданной на ICLR 2026. В ней представлен новый фреймворк масштабирования на этапе вывода, который впервые применяет алгоритм Monte Carlo Tree Search (MCTS) от AlphaGo для генерации видео большой длительности, решая проблемы семантического дрейфа и накопления ошибок в традиционных последовательных методах генерации.
В экспериментах с моделью Cosmos-Predict2 с открытым исходным кодом от Nvidia Planning at Inference генерировала согласованные видео длительностью свыше 20 секунд. Система превосходила базовые методы вроде Greedy Search и Beam Search по сохранению объектов, временной согласованности и соответствию тексту-видео. По сравнению с ведущими индустриальными закрытыми моделями видео, сгенерированные этим методом, были на 18% длиннее Sora и на 47% длиннее Kling при сопоставимом качестве визуализации. Как оптимизация вывода plug-and-play, этот фреймворк не требует переобучения лежащей в основе модели.