На здобутому премію Тьюринга та колишньому головному науковому співробітнику Meta AI Янну Лекуну заснована стартап-компанія Advanced Machine Intelligence (AMI) нещодавно завершила масштабне посівне фінансування на суму понад 1,03 мільярда доларів. Після цього «Модель світу» знову стала популярним ключовим словом у галузі штучного інтелекту. Однак, навіть якщо AI-спільнота часто обговорює концепцію моделей світу, різні дослідники мають дуже різне розуміння цього терміну.
(Глибокий аналіз: Чи має LLM недоліки? Чому AMI Янна Лекуна робить ставку на шлях моделей світу)
Недавно дослідник Meta AI Жоукай Чжао опублікував у соцмережах довгий пост, у якому зазначив, що сучасні так звані моделі світу у галузі AI можна поділити щонайменше на п’ять різних технічних напрямків. Він вважає, що ці підходи насправді не конкурують безпосередньо, а вирішують різні рівні проблем.
JEPA: стиснене фізичне розуміння
Spatial Intelligence: відновлення 3D-світу
Learned Simulation: навчання AI у симульованому світі
NVIDIA Cosmos: забезпечення інфраструктури
Active Inference: пропозиція нової теорії розуму
Він очікує, що межі між цими напрямками незабаром стануть розмитими.
Напрямок 1: JEPA від Лекуна — розуміння світу через абстрактний простір
Чжао вважає, що перший тип моделі світу — це Joint Embedding Predictive Architecture (JEPA), головним представником якої є Янн Лекун.
Основна ідея JEPA полягає в тому, що AI не має намагатися передбачити кожен піксель, а має прогнозувати майбутнє у абстрактному просторі репрезентацій.
У реальному світі багато деталей важко передбачити, наприклад, зміну освітлення, точне положення листя, текстуру поверхні. Якщо модель має генерувати всі пікселі, вона буде змушена обробляти безліч безглуздих деталей.
Метод JEPA полягає у тому, що спочатку за допомогою кодувальника зображення або відео перетворюється у абстрактне представлення, а потім у цьому просторі прогнозуються приховані частини. Таким чином, модель може навчитися, наприклад, що «м’яч впаде зі столу», не генеруючи кожен кадр.
Meta’s V-JEPA 2 — один із найяскравіших прикладів таких експериментів. Ця модель використовує 1 мільйон годин відеоматеріалів для самонавчання, а потім лише 62 години даних з робототехніки достатньо для створення світової моделі, що підтримує нульовий зразковий планування. Робот генерує кандидатні послідовності дій, вводить їх у модель і обирає ту, що найкраще відповідає цільовому зображенню. Такий підхід працює навіть із об’єктами та середовищами, яких модель раніше не бачила.
Ця висока ефективність у використанні даних — одна з головних причин, чому AMI робить ставку на архітектуру JEPA. Якщо репрезентація достатньо хороша, не потрібно з нуля перебирать кожне завдання. AMI Labs — це спроба Лекуна перенести цю технологію з дослідницької сфери у практичну. Вони спершу орієнтуються на медицину та робототехніку. Але це довгострокові інвестиції: їхній CEO відкрито заявив, що комерційні продукти можуть з’явитися лише через кілька років.
Напрямок 2: «Просторова мудрість» від Лі Фейфей
Ще один відомий напрямок походить від засновниці World Labs Лі Фейфей.
(Хто така Лі Фейфей? Стартап-єдиноріг World Labs отримує фінансування від NVIDIA, AMD)
На відміну від JEPA, що зосереджена на «прогнозуванні майбутнього», Лі Фейфей ставить питання: «Як виглядає світ у тривимірному просторі?» Вона пропонує концепцію, яку називає Spatial Intelligence (просторова мудрість). Вона вважає, що справжнє розуміння вимагає чіткої структурованої 3D-репрезентації: геометрії, глибини, стабільності та здатності переглядати сцену з нових ракурсів — а не просто прогнозувати час.
Це відрізняється від JEPA: тут не вчаться абстрактній динаміці, а структурованому 3D-представленню навколишнього середовища, з яким можна безпосередньо працювати.
Продукт Marble від World Labs може генерувати стійкий 3D-світ із зображень, тексту або відео. На відміну від традиційних моделей генерації відео, Marble створює справжню 3D-сцену. Можна змінювати точку зору, редагувати об’єкти, експортувати 3D-моделі. Це ближче до 3D-редакторів, ніж до простих генераторів.
Напрямок 3: DeepMind — навчальні симуляційні світи
Третій тип моделі світу — це навчальні симуляції (Learned Simulation).
Приклади досліджень:
DeepMind Genie 3
Dreamer-серія
Runway GWM-1
Ці моделі прагнуть створити інтерактивний симульований світ, у якому AI може навчатися.
Напрямок 4: Інфраструктура NVIDIA для фізичного AI
Четвертий напрямок — не створення окремої моделі, а побудова цілісної екосистеми. Представник — NVIDIA, яка запустила платформу Cosmos, що забезпечує повний набір інструментів:
Обробка відеоданих
Візуальні токенізатори
Навчання моделей
Розгортання сервісів
Модель базового світу (World foundation models) Cosmos вже тренується на 20 мільйонів годин реальних відео, з обсягом токенів у 9000 трильйонів.
(Екосистема NVIDIA Alpamayo: надає AI-водіям здатність робити висновки та пояснювати рішення)
Стратегія NVIDIA ясна: не обов’язково створювати власну модель світу, а надавати інструменти для її створення всім охочим.
Напрямок 5: Active Inference (нейронауковий підхід)
Останній напрямок базується на нейронауці. Його представник — нейронауковець Карл Фрістон, який запропонував відомий принцип вільної енергії (Free Energy Principle). На відміну від традиційного підходу підкріпленого навчання, Active Inference вважає, що AI — це як живий організм, що постійно намагається зрозуміти світ. Він вживає дії, щоб зробити свої передбачення навколишнього середовища більш точними і зменшити ситуації, коли «щось не відповідає очікуванням».
Компанія VERSES AI розробила систему AXIOM, яка використовує об’єктно-орієнтовану модель: кожен об’єкт — окрема сутність, система оновлює свої переконання за допомогою байєсівського виведення, не залежачи від глибоких нейронних мереж. Така архітектура має пояснюваність, комбінаційність і високу ефективність у використанні даних. У квітні 2025 року AXIOM вийшла на комерційний ринок (Genius). Базові тести AXIOM у стандартних контрольних задачах показали конкурентоспроможність із RL-базовими системами при значно менших обсягах даних.
Майбутнє AI: розуміння світу
Завершуючи, Чжао зазначає, що ці п’ять напрямків моделей світу насправді не виключають одне одного, а швидше доповнюють:
JEPA: стиснене фізичне розуміння
Spatial Intelligence: відновлення 3D-світу
Learned Simulation: навчання AI у симульованому світі
NVIDIA Cosmos: забезпечення інфраструктури
Active Inference: нова теорія розуму
Зі зростанням ролі AI у робототехніці, автономному керуванні та фізичних системах, ці технології, ймовірно, швидко зіллються у майбутньому.
Ця стаття «Meta дослідники розкривають п’ять основних шкіл моделей світу: що таке AI, на якій ставці роблять Ян Лекун і Лі Фейфей?» вперше з’явилася на ABMedia.