De acordo com Yann LeCun em uma entrevista recente, grandes modelos de linguagem não podem levar à inteligência geral artificial apesar do seu valor, pois eles não têm a capacidade de prever as consequências das ações e planejar em um espaço abstrato — habilidades essenciais para um raciocínio verdadeiramente no nível humano. LeCun destacou que o sucesso dos LLMs depende da natureza discreta da linguagem, mas o mundo real é contínuo e de alta dimensionalidade, exigindo que os modelos entendam causalidade física em vez de apenas prever o próximo token.
LeCun propõe a Joint Embedding Predictive Architecture (JEPA) como alternativa: ela prevê estados futuros no espaço de representação semântica, em vez de reconstruir pixels individuais. Um artigo de março de 2026 sobre o LeWorldModel demonstrou o potencial da JEPA: um modelo com 15 milhões de parâmetros alcançou 96% de taxa de sucesso em tarefas de controle e melhorou a velocidade de planejamento em até 50 vezes, sem exigir conjuntos massivos de dados para pré-treinamento.