بحسب يان ليكون في مقابلة حديثة، لا يمكن للنماذج اللغوية الكبيرة قيادة الذكاء الاصطناعي العام على الرغم من قيمتها، لأنها تفتقر إلى القدرة على التنبؤ بعواقب الأفعال والتخطيط في فضاء مجرد—وهي قدرات ضرورية لتحقيق استدلال بمستوى إنساني حقيقي. شدد ليكون على أن نجاح النماذج اللغوية الكبيرة يعتمد على الطبيعة المتقطعة للغة، لكن العالم الحقيقي متصل وعالي الأبعاد، ما يتطلب من النماذج فهم السببية الفيزيائية بدلًا من مجرد التنبؤ بالرمز التالي.
يقترح ليكون بنية التضمين التنبؤية المشتركة Joint Embedding Predictive Architecture (JEPA) كبديل، إذ تتنبأ بالحالات المستقبلية في فضاء التمثيلات الدلالية بدلًا من إعادة بناء البكسلات الفردية. أظهرت ورقة بحثية من مارس 2026 حول LeWorldModel إمكانات JEPA: إذ حقق نموذج بعدد 15 مليون معلمة معدل نجاح بلغ 96% في مهام التحكم، وحسن سرعة التخطيط بما يصل إلى 50 مرة، دون الحاجة إلى مجموعات بيانات ضخمة للتدريب المسبق.