De acordo com Beating, pesquisadores da University of Waterloo e da Brown University apresentaram o Planning at Inference, um novo framework de escalonamento em tempo de inferência em um artigo submetido à ICLR 2026. A estrutura aplica o algoritmo de Monte Carlo Tree Search (MCTS) do AlphaGo à geração de vídeos de longa duração pela primeira vez, abordando problemas de deriva semântica e acúmulo de erros em métodos tradicionais de geração sequencial.
Em experimentos usando o modelo Cosmos-Predict2, de código aberto, da Nvidia, o Planning at Inference gerou vídeos coerentes com mais de 20 segundos. O sistema superou métodos de base como Greedy Search e Beam Search em persistência de objetos, consistência temporal e alinhamento texto-vídeo. Em comparação com modelos fechados líderes do setor, os vídeos gerados por este método foram 18% mais longos do que o Sora e 47% mais longos do que o Kling, com fidelidade visual comparável. Como otimização de inferência plug-and-play, a estrutura não exige retrain do modelo subjacente.