Лидеры отрасли на конференции Beijing Zhiyuan обсуждали опасения о гомогенизации моделей ИИ на фоне того, что результаты оценки топовых моделей все больше сходятся, а разрыв между моделями с открытым исходным кодом и закрытыми, как полагают, составляет лишь 3–6 месяцев. Управляющий партнер Bluerun Ventures Чэнь Вэйгуан, директор Zhiyuan Research Institute Ван Чжунъюань, основатель и CTO Galaxy General Ван Хэ и CEO MiniMax Ли Дахай обсудили источники долгосрочной ценности в эпоху больших моделей. На панельной дискуссии рассмотрели вопрос о том, движутся ли индустрии ИИ-моделей и воплощённого интеллекта к гомогенизации и где существуют устойчивые конкурентные преимущества. Наблюдатели отрасли считают, что талант — ключевой фактор в AI-состязании США и Китая, а воплощённый интеллект олицетворяет возможность Китая добиться прорывных моментов, сопоставимых с AlphaGo и ChatGPT.

Лидеры отрасли отвергают опасения о гомогенизации на конференции Zhiyuan

Ван Чжунъюань заявил, что, хотя различные лидерборды больших моделей впечатляют и сами рейтинги не вполне заслуживают доверия, модельные компании, которые осмеливаются проводить живые демонстрации и выходить в реальные сценарии, демонстрируют уверенность и способны находить в реальных условиях замкнутые циклы данных. Он сказал, что в целом итерации производительности больших моделей еще далеки от достижения узкого места, технические маршруты не сошлись, а будущее может принести несколько сценариев, включая «одну суперсилу и множество сильных игроков» или «несколько гигантов, стоящих бок о бок». Он охарактеризовал утверждения о том, что отрасль будет двигаться к гомогенизации, как преждевременные.

Основатель Galaxy General Ван Хэ продолжил обсуждение от больших языковых моделей к воплощённому интеллекту. Он заявил, что сами по себе большие языковые модели все еще содержат множество переменных, а неопределенность в возможностях мультимодального понимания и понимания видео выше. Ван охарактеризовал воплощённый интеллект как находящийся на «стадии от GPT-1 к GPT-2», а отрасль — лишь входящую в период ускорения.

Ван Хэ описал конкурентную «крепость» воплощённого интеллекта как полностью выстроенную систему, включающую поставку исходных данных (синтетические данные, данные людей, данные роботов), возможности уточнения данных, итерации аппаратной части и совместное проектирование программного и аппаратного обеспечения, возможности слияния по пропускной способности моделей, а также финальные возможности поставки железа. Он охарактеризовал это как «систему “шестиугольного воина”», заявив, что в мире не существует зрелых продуктов такого типа, а сама «крепость» остается чрезвычайно глубокой.

CEO MiniMax Ли Дахай сослался на коммерческий успех Anthropic как на прямое свидетельство против гомогенизации. Он заявил, что большие модели нельзя сводить к «талантам Т-образного типа» с лишь общими горизонтальными возможностями — у них должны быть вертикальные сильные стороны. Ли объяснил, что Anthropic стал глобальным явлением потому, что построил способности к программированию на беспрецедентно высоком уровне поверх своей общей модели-основы, что поддержало высокую оценку и впечатляющую коммерческую результативность.

Ли заявил, что большие модели встраиваются в эволюцию системы, а не сводятся к изолированным техническим точкам. Он сказал, что будущая оптимизация моделей должна глубоко координироваться с прикладными сценариями — он сравнил это с проектированием двигателя, который должен согласовываться со всем автомобилем, где направления оптимизации полностью различаются для гоночных машин F1 и для автомобилей для поездок за продуктами. Ли заявил, что техническую универсальность и коммерческую универсальность необходимо разделять: хорошая коммерциализация требует экстремально прицельной оптимизации модели под сценарии, позволяя каждой компании выстроить собственную «крепость», выбрав правильное направление.

Galaxy General: воплощённый интеллект находится на стадии GPT-1–GPT-2

Ван Хэ рассказал о подходе Galaxy General в рамках парадигмы WAM (World Action Model). До появления парадигмы WAM Galaxy General использовал 1 млрд кадров симуляционных данных, чтобы проверить масштабируемость возможностей захвата. Компания разработала GRASP-VLA, чтобы достичь захвата без промахов (zero-shot) для произвольных объектов, при этом ни одна модель, опирающаяся на данные реального телоуправления, не демонстрировала до сих пор сопоставимого уровня результатов.

Ван объяснил, что появление парадигмы WAM полностью сняло «узкое место данных» для воплощённого интеллекта. Традиционные VLA-модели требуют данных с метками действий и могут полагаться только на данные роботов. WAM делает действие (Action) ядром: выполняет планирование действий на уровне зрения через предсказание будущего без необходимости в метках действий. Это означает, что роботы могут напрямую учиться поведенческой логике по человеческим видео, а массивы данных человеческих видео становятся материалом для обучения.

Ван заявил, что Galaxy General опубликовал первую в мире статью по WAM в марте 2025 года, а в апреле директор NVIDIA Embodied Intelligence Lab Джим Фан заявил, что «финальная цель» для роботов — WAM. Ван охарактеризовал преподготовку (pre-training) воплощённого интеллекта как входящую в взрывной период без ограничений на сбор данных. Он сказал, что в ближайшие два года воплощённый интеллект полностью наступит в своем GPT-3.5-моменте, а «входной билет» — это десятки миллионов часов высококачественных данных и инвестиции на миллиарды.

Мультимодальный ИИ и воплощённый интеллект открывают новые пути масштабирования

Ван Чжунъюань раскрыл, что дискуссии в отрасли прошлого года о провале Scaling Law возникли из тревоги, что «интернет-данные для pre-training исчерпаны». За последние два года посттренинг, оптимизация рассуждений и рекурсивная самоуправляемая эволюция агентами принесли новую волну улучшений возможностей. Ван заявил, что это означает не обязательно рост числа параметров в самих моделях, а то, что весь комплекс становится все более способным: ИИ трансформируется из инструмента для чата в инструмент для выполнения задач.

Как научно-исследовательский институт, Zhiyuan изучает следующую кривую роста интеллекта. За последние два года институт подтвердил масштабируемую парадигму в мультимодальной области: серии Wujie Emu3, используя менее 1% мультимодальных данных и десятки миллиардов параметров, уже демонстрируют явные улучшения производительности. Теперь институт начал двигаться к world foundation models для физического мира, исследуя пути масштабирования для world models.

Ли Дахай предложил для MiniMax «закон плотности знаний»: общая интеллигентность больших моделей = плотность знаний × число параметров. Он сообщил, что при развертывании edge-моделей для автокомпаний в прошлом году они могли достичь лишь 1B параметров, в этом году — повысили до 4B, а в следующем году, вероятно, будет достигнут уровень десятков миллиардов. По мере улучшения технологий квантования и роста плотности знаний более сильные модели после квантования будут занимать те же ресурсы, что и раньше, а расширение масштаба edge-моделей только начинается.

Ли заявил, что у многих поэтапных выводов в отрасли очень короткий срок актуальности: развитие постоянно переворачивает старые представления. Он сказал, что дело не только в том, что у edge-моделей огромный потенциал для роста — также у больших языковых моделей обработка длинного контекста и оптимизация с низким энергопотреблением все еще оставляют масштабируемый потенциал, который далеко не полностью исследован. По его словам, отрасль далека от стадии сближения.

Панель выявила преимущества Китая по цепочке поставок и талантам

Ван Чжунъюань заявил, что развитие технологий ИИ идет тем же путем, что и автономное вождение: неизбежно проходит цикл от тревоги и страха к адаптации и использованию, затем — к созданию полноценных систем управления и механизмов распределения ответственности. Когда технология способна дать 3–5-кратное улучшение производительности, ее популяризация не может быть заблокирована, и человечество, пережившее несколько волн технологических прорывов, найдет соответствующие решения по управлению.

Ли Дахай заявил, что человеческое общество по сути развивалось через «обучение на ошибках» — правила безопасности полетов и ограничения скорости на дорогах у каждой стороны стоят болезненных уроков. Технологии ИИ будут повышать эффективность выявления уязвимостей и устранения проблем, существенно снижая эту цену; отрасль с самого раннего этапа уделяет большое внимание безопасностным базовым принципам, а компании проактивно берут на себя социальную ответственность. Он сказал, что паттерн обучения на ошибках может быть трудно полностью избежать: риски безопасности часто возникают из неожиданных измерений, и улучшение правил через уроки становится реальностью, с которой придется столкнуться.

Относительно дифференцирующих преимуществ Китая в ИИ Ван Чжунъюань заявил, что цепочка поставок Китая, преимущества в производстве и огромный внутренний рынок достаточны, чтобы инкубировать и катализировать внедрение новых технологий: воплощённый интеллект и world models, вероятно, станут сферами, где Китай добьется дифференцированного лидерства.

Ван Хэ твердо заявил, что воплощённый интеллект — это шанс Китая. Он выразил уверенность, что «AlphaGo-момент» и «ChatGPT-момент» воплощённого интеллекта оба будут реализованы в Китае, заявив, что если «ноль к единице» (zero to one) будет завершено в Китае, то «единица к ста» (one to hundred) определенно созреет в Китае.

Ли Дахай добавил самый базовый лежащий в основе фактор: у Китая наибольшее в мире количество самых умных молодых AI-талантов — это самое фундаментальное преимущество. В сочетании с преимуществами цепочки поставок, экосистемы и сценариев Китай обязательно добьется значительного прогресса в сфере ИИ.

FAQ

На какой стадии, по словам Galaxy General, находится воплощённый интеллект?

Основатель и CTO Galaxy General Ван Хэ заявил на конференции Beijing Zhiyuan, что воплощённый интеллект сейчас находится на «стадии от GPT-1 к GPT-2», а отрасль только входит в период ускорения. Ван сказал, что в ближайшие два года воплощённый интеллект полностью наступит в своем GPT-3.5-моменте, а «входной билет» — это десятки миллионов часов высококачественных данных и инвестиции на миллиарды.

Как участники панели отреагировали на опасения о гомогенизации моделей ИИ?

Директор Zhiyuan Research Institute Ван Чжунъюань заявил, что в целом итерации производительности больших моделей еще далеки от достижения узкого места, а технические маршруты не сошлись; он охарактеризовал заявления о гомогенизации как преждевременные. CEO MiniMax Ли Дахай сослался на успех Anthropic в навыках программирования как на доказательство того, что компании могут добиваться дифференциации за счет вертикальных сильных сторон. Ван Хэ из Galaxy General описал конкурентную «крепость» воплощённого интеллекта как полностью выстроенную систему, охватывающую поставку данных, итерации аппаратной части и возможности моделей, заявив, что зрелых продуктов такого типа не существует в мире.

Какие преимущества панель выявила для развития ИИ в Китае?

Участники панели назвали несколько преимуществ Китая. Ван Чжунъюань сослался на цепочку поставок Китая, преимущества в производстве и огромный внутренний рынок как достаточные для того, чтобы катализировать внедрение новых технологий. Ли Дахай заявил, что у Китая самое фундаментальное преимущество — наибольшее в мире количество самых умных молодых AI-талантов. Ван Хэ выразил уверенность, что прорывные моменты воплощённого интеллекта, сопоставимые с AlphaGo и ChatGPT, будут реализованы в Китае, заявив, что если «ноль к единице» будет завершено в Китае, то «единица к ста» определенно созреет в Китае.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

5ч назад

AI-модель Yunzhisheng U2 заняла 8-е место в мире, открывает доступ для разработчиков

5ч назад

Марк Андриссен отстаивает регулирование адресного ИИ как в США ограничивают доступ к моделям Anthropic

9ч назад

Китайские ИИ-модели достигли 18,42 трлн еженедельных токен-звонков, занимая первое место в мире уже седьмую неделю подряд

Связанные статьи

Дэн Айвз: объединение SpaceX и Tesla, вероятно, состоится в течение года

Lucas Bennett1ч назад

Глава Microsoft Наделла предлагает AI-фреймворк для человеческого капитала и токенизированного капитала

Oliver Grant4ч назад