Theo Yann LeCun trong một cuộc phỏng vấn gần đây, các mô hình ngôn ngữ lớn không thể dẫn đến trí tuệ nhân tạo tổng quát dù chúng có giá trị, vì chúng thiếu khả năng dự đoán hậu quả của hành động và lập kế hoạch trong không gian trừu tượng—những năng lực cần thiết cho suy luận ở mức độ con người thực sự. LeCun nhấn mạnh rằng sự thành công của LLM phụ thuộc vào tính rời rạc của ngôn ngữ, nhưng thế giới thực lại là liên tục và có chiều cao, đòi hỏi mô hình phải hiểu nhân quả vật lý thay vì chỉ đoán token tiếp theo.
LeCun đề xuất Kiến trúc Dự đoán Nhúng Chung (Joint Embedding Predictive Architecture, JEPA) như một lựa chọn thay thế: kiến trúc này dự đoán các trạng thái tương lai trong không gian biểu diễn ngữ nghĩa thay vì tái tạo từng pixel riêng lẻ. Một bài báo tháng 3/2026 về LeWorldModel đã chứng minh tiềm năng của JEPA: một mô hình có 15 triệu tham số đạt tỷ lệ thành công 96% trên các tác vụ điều khiển và cải thiện tốc độ lập kế hoạch lên đến 50 lần, mà không cần các bộ dữ liệu tiền huấn luyện khổng lồ.