D’après Yann LeCun, dans une interview récente, les grands modèles de langage ne peuvent pas mener à une intelligence générale artificielle malgré leur valeur, car ils n’ont pas la capacité de prédire les conséquences des actions et de planifier dans un espace abstrait — des compétences essentielles pour un raisonnement de niveau humain. LeCun a souligné que le succès des LLM repose sur la nature discrète du langage, mais le monde réel est continu et de grande dimension, ce qui exige des modèles qu’ils comprennent la causalité physique plutôt que de simplement prédire le token suivant.
LeCun propose l’architecture d’anticipation par représentation d’encastrement conjoint (Joint Embedding Predictive Architecture, JEPA) comme alternative : elle prédit les états futurs dans un espace de représentation sémantique plutôt que de reconstruire des pixels individuels. Un article de mars 2026 sur LeWorldModel a mis en évidence le potentiel de JEPA : un modèle de 15 millions de paramètres a atteint un taux de réussite de 96% sur des tâches de contrôle et a amélioré la vitesse de planification jusqu’à 50 fois, sans nécessiter de gigantesques ensembles de données d’entraînement préalable.