Лідери індустрії на конференції Beijing Zhiyuan обговорювали занепокоєння щодо гомогенізації AI-моделей, тоді як ключові результати оцінювання топових моделей дедалі більше сходяться, а різниця між моделями з відкритим кодом і закритим кодом, як вважають, становить лише 3–6 місяців. Managing Partner Bluerun Ventures Чень Вейгуан, директор Zhiyuan Research Institute Ван Чжуньюань, співзасновник Galaxy General і CTO Ван Хе, а також CEO MiniMax Лі Дахай обговорили джерела довгострокової цінності в епоху великих моделей. На панелі розглянули, чи рухаються індустрії AI-моделей і втіленого інтелекту до гомогенізації та де існують тривалі конкурентні переваги. Спостерігачі ринку вважають, що в американо-китайській AI-гонці вирішальною є талановитість, а втілений інтелект являє собою можливість Китаю досягти проривних моментів, порівнюваних з AlphaGo і ChatGPT.
Ван Чжуньюань заявив, що, хоча різні рейтинги лідерів серед великих моделей вражають і самі рейтинги не зовсім є достовірними, модельні компанії, які наважуються проводити живі демонстрації та виходити в реальні сценарії, демонструють упевненість і можуть знаходити замкнені контури даних у реальних умовах. Він зазначив, що загальна ітерація продуктивності великих моделей іще далека від досягнення «вузького місця», технічні маршрути не збігаються, а майбутнє може принести кілька моделей, зокрема «одна суперсила з кількома сильними гравцями» або «кілька гігантів стоять пліч-о-пліч». Він охарактеризував твердження про те, що індустрія рухатиметься до гомогенізації, як передчасні.
Співзасновник Galaxy General Ван Хе розширив обговорення з великих мовних моделей до втіленого інтелекту. Він заявив, що самі великі мовні моделі все ще мають багато змінних, а можливості мультимодального й відеорозуміння містять більшу невизначеність. Ван охарактеризував втілений інтелект як перебування на «стадії від GPT-1 до GPT-2», а індустрія лише входить у період прискорення.
Ван Хе описав конкурентний рівчак втіленого інтелекту як повну систему, що охоплює постачання вихідних даних (синтетичні дані, дані людини, дані робота), можливості уточнення даних, ітерації апаратного забезпечення та співдизайн програмного й апаратного, можливості злиття пропускної здатності моделей, а також кінцеві можливості постачання апаратного забезпечення. Він охарактеризував це як «гексагонального воїна» — комплексну систему — зазначивши, що в усьому світі не існує зрілих продуктів такого типу, а рівчак залишається надзвичайно глибоким.
CEO MiniMax Лі Дахай навів комерційний успіх Anthropic як прямий доказ проти гомогенізації. Він заявив, що великі моделі не можуть бути просто «T-подібними талантами» з лише загальними горизонтальними можливостями, вони повинні мати сильні вертикальні сторони. Лі пояснив, що Anthropic став глобальним явищем, бо він побудував можливості програмування на неперевершеному рівні поверх своєї загальної моделі-основи, підтримуючи високі оцінки та вражаючі комерційні результати.
Лі заявив, що великі моделі «вбудовуються» в еволюцію системи, а не є ізольованими технічними точками. Він зазначив, що майбутня оптимізація моделей повинна глибоко координуватися з прикладними сценаріями, порівнюючи це з проєктуванням двигуна, яке має узгоджуватися з усім транспортним засобом: напрями оптимізації повністю різняться для гоночних автомобілів F1 і для автомобілів для покупок у продуктовому магазині. Лі заявив, що технічну універсальність і комерційну універсальність потрібно розділяти, а для успішної комерціалізації потрібна надзвичайно орієнтована на сценарії оптимізація моделей, що дозволяє кожній компанії вибудувати свій рівчак, знаходячи правильний напрям.
Ван Хе поділився практикою Galaxy General у парадигмі WAM (World Action Model). До того, як з’явилася парадигма WAM, Galaxy General використовувала 1 мільярд кадрів симуляційних даних, щоб перевірити можливості масштабування для навичок захоплення. Компанія розробила GRASP-VLA для досягнення захоплення без жодних спроб (zero-shot) довільних об’єктів, причому жодна модель, що покладається на реальні дані телерозпорядження, не досягала на сьогодні рівня продуктивності, еквівалентного цьому.
Ван пояснив, що поява парадигми WAM повністю зламала вузьке місце з даними для втіленого інтелекту. Традиційні моделі VLA вимагають даних із мітками дій і можуть покладатися лише на дані роботів. WAM фокусується на Action як на основі, виконуючи планування дій на рівні зору через майбутнє передбачення без потреби в мітках дій. Це означає, що роботи можуть напряму вивчати логіку поведінки з відео людей, а масивні масиви відеоданих людей перетворюються на матеріал для тренування.
Ван заявив, що Galaxy General опублікувала першу у світі WAM-роботу в березні 2025 року, а в квітні директор NVIDIA Embodied Intelligence Lab Джим Фан заявив, що «кінцева гра» для роботів — це WAM. Ван охарактеризував попереднє навчання втіленого інтелекту як вхід у вибуховий період без обмежень на збір даних. Він зазначив, що протягом наступних двох років втілений інтелект повністю виведе свій GPT-3.5 момент: «вхідний квиток» — це десятки мільйонів годин якісних даних і мільярди інвестицій у капітал.
Ван Чжуньюань розкрив, що дискусії в індустрії минулого року про провал Scaling Law походили з тривоги, що «інтернет-попередньо навчальні дані були вичерпані». За останні два роки пост-тренування, оптимізація міркувань і рекурсивна самоеваволюція Agent принесли нову хвилю покращень можливостей. Ван заявив, що це не обов’язково означає зростання кількості параметрів у самих моделях, а радше те, що весь система стає дедалі здібнішою: AI перетворюється з чат-інструмента на інструмент виконання задач.
Як дослідницький інститут, Zhiyuan вивчає наступну криву зростання інтелекту. За останні два роки інститут підтвердив масштабну парадигму в мультимодальній сфері: серія Wujie Emu3 використовує менш ніж 1% мультимодальних даних, а десятки мільярдів параметрів уже демонструють чіткі покращення продуктивності. Наразі інститут почав рух у напрямку світових фундаментальних моделей для фізичного світу, досліджуючи шляхи масштабування для world models.
Лі Дахай запропонував «закон щільності знань» MiniMax: загальний інтелект великих моделей = щільність знань × кількість параметрів. Він розкрив, що під час розгортання edge-моделей для автомобільних компаній минулого року вони могли досягти лише 1B параметрів, цього року оновили до 4B, а наступного року, ймовірно, вийдуть на десятки мільярдів. Оскільки технологія квантування покращується і щільність знань зростає, сильніші моделі після квантування займають ті самі ресурси, що й раніше, а масштабне розширення edge-моделей лише починається.
Лі заявив, що багато поетапних висновків в індустрії мають дуже короткий термін актуальності: розвиток постійно перевертає старі уявлення. Він зазначив, що не лише edge-моделі мають величезний простір для зростання, а й великі мовні моделі з їхньою обробкою довгого контексту та оптимізацією з низьким енергоспоживанням усе ще мають потенціал для масштабування, який далеко не вичерпано, а індустрія ще не досягла стадії збіжності.
Ван Чжуньюань заявив, що розвиток технологій AI йде тим самим шляхом, що й автономне водіння: він обов’язково проходить етап від тривоги й страху до адаптації та використання, а потім до побудови повних систем управління та механізмів розподілу відповідальності. Коли технологія може забезпечити 3–5-кратне підвищення продуктивності, її масове поширення неможливо зупинити, і людство, переживши кілька хвиль технологічних перетворень, знайде відповідні рішення з управління.
Лі Дахай заявив, що людське суспільство по суті розвивалося через «навчання на помилках» — правила безпеки авіації та ліміти швидкості на дорогах кожні мають болісні уроки в минулому. Технології AI підвищать ефективність виявлення вразливостей і виправлення проблем, різко зменшуючи ці витрати: індустрія з високою увагою ставиться до безпекових базових принципів уже на стартовій стадії, а компанії проактивно беруть на себе соціальну відповідальність. Лі заявив, що патерн навчання на помилках може бути складно повністю уникнути: безпекові ризики часто виникають з несподіваних вимірів, тож покращення правил через уроки стає реальністю, з якою необхідно стикатися.
Щодо диференціаційних переваг Китаю в AI, Ван Чжуньюань заявив, що ланцюги постачання, виробничі переваги та величезний внутрішній ринок Китаю достатні, щоб інкубувати й каталізувати впровадження нових технологій, а втілений інтелект і world models, ймовірно, стануть сферами, де Китай досягне диференційованого лідерства.
Ван Хе рішуче заявив, що втілений інтелект — це можливість Китаю. Він висловив упевненість, що «AlphaGo moment» і «ChatGPT moment» втіленого інтелекту будуть реалізовані в Китаї: «якщо нуль до одного буде завершено в Китаї, то один до ста обов’язково дозріє в Китаї».
Лі Дахай додав найбільш фундаментальний базовий фактор: Китай має найбільшу кількість найрозумніших молодих AI-талантів у світі — це найфундаментальніша перевага. У поєднанні з перевагами ланцюгів постачання, екосистеми та сценаріїв Китай безперечно досягне значного прогресу в AI.
На якій стадії, за словами Galaxy General, перебуває втілений інтелект?
Засновник і CTO Galaxy General Ван Хе заявив на конференції Beijing Zhiyuan, що втілений інтелект наразі перебуває на «стадії від GPT-1 до GPT-2», а індустрія лише входить у період прискорення. Ван зазначив, що протягом наступних двох років втілений інтелект повністю виведе свій GPT-3.5 момент: «вхідний квиток» — це десятки мільйонів годин якісних даних і мільярди інвестицій у капітал.
Як учасники панелі відреагували на занепокоєння щодо гомогенізації AI-моделей?
Директор Zhiyuan Research Institute Ван Чжуньюань заявив, що загальна ітерація продуктивності великих моделей іще далека від досягнення вузького місця, а технічні маршрути не збігаються, тож він охарактеризував твердження про гомогенізацію як передчасні. CEO MiniMax Лі Дахай навів успіх Anthropic у можливостях програмування як доказ того, що компанії можуть створювати диференціацію завдяки вертикальним сильним сторонам. Galaxy General Ван Хе описав конкурентний рівчак втіленого інтелекту як повну систему, що охоплює постачання даних, ітерації апаратного забезпечення та можливості моделей, зазначивши, що у світі не існує зрілих продуктів такого типу.
Які переваги для розвитку AI у Китаї визначила панель?
Учасники панелі визначили кілька переваг Китаю. Ван Чжуньюань назвав ланцюги постачання Китаю, виробничі переваги та величезний внутрішній ринок достатніми, щоб каталізувати впровадження нових технологій. Лі Дахай заявив, що Китай має найбільшу кількість найрозумніших молодих AI-талантів у світі як найфундаментальнішу перевагу. Ван Хе висловив упевненість, що проривні моменти втіленого інтелекту, порівнювані з AlphaGo і ChatGPT, будуть реалізовані в Китаї: він сказав, що якщо нуль до одного завершено в Китаї, то один до ста обов’язково дозріє в Китаї.
Пов’язані новини
Ден Айвз заявив, що злиття SpaceX і Tesla, ймовірно, відбудеться протягом року
Генеральний директор Microsoft Наделла пропонує AI-фреймворк для людського капіталу та токенізованого капіталу
Генеральний директор MiniMax: Edge Model Intelligence відповідає GPT-4, агентській технології потрібен час
Гендиректор Microsoft: ІІ «щит» — це контур навчання, і компанії не можуть перекласти навчання на підрядників
Рауль Пал: обчислювальна потужність замінить капітал, «вузьке місце» в AI спровокує перетікання криптокоштів «третя хвиля»