Los líderes de la industria en la Conferencia Beijing Zhiyuan debatieron las preocupaciones sobre la homogeneización de los modelos de IA, ya que el desempeño de evaluación de los principales modelos converge cada vez más y se cree que la brecha entre los modelos de código abierto y los de código cerrado es de solo 3-6 meses. Chen Weiguang, socio director de Bluerun Ventures, Wang Zhongyuan, director del Instituto de Investigación Zhiyuan, Wang He, fundador general y CTO de Galaxy General, y Li Dahai, CEO de MiniMax, discutieron las fuentes de valor a largo plazo en la era de los modelos grandes. El panel abordó si los modelos de IA y las industrias de inteligencia encarnada se encaminan hacia la homogeneización y dónde existen ventajas competitivas duraderas. Los observadores de la industria ven el talento como clave en la competencia de IA entre EE. UU. y China, y la inteligencia encarnada representa la oportunidad de China de lograr momentos de avance comparables a AlphaGo y ChatGPT.

Líderes de la industria rechazan las preocupaciones sobre la homogeneización en la Conferencia Zhiyuan

Wang Zhongyuan indicó que, si bien varios ranking de líderes de modelos grandes marean y las propias clasificaciones no son del todo creíbles, las compañías de modelos que se atreven a hacer demostraciones en vivo e ingresar a escenarios del mundo real demuestran confianza y pueden encontrar bucles de datos cerrados en escenarios reales. Dijo que, en general, la iteración del desempeño de los modelos grandes aún está muy lejos de llegar a un cuello de botella, las rutas técnicas no han convergido y el futuro puede presentar múltiples patrones, incluyendo “un superpoder con múltiples jugadores fuertes” o “múltiples gigantes de pie uno al lado del otro”. Wang caracterizó como prematuras las afirmaciones de que la industria se moverá hacia la homogeneización.

El fundador de Galaxy General, Wang He, amplió la discusión de los grandes modelos de lenguaje a la inteligencia encarnada. Dijo que los grandes modelos de lenguaje en sí todavía tienen muchas variables, con mayor incertidumbre en las capacidades de comprensión multimodal y de video. Wang caracterizó la inteligencia encarnada como actualmente en “la etapa del GPT-1 al GPT-2”, y que la industria apenas está entrando en un periodo de aceleración.

Wang He describió la ventaja competitiva de la inteligencia encarnada como un sistema completo que abarca el suministro de datos de origen (datos sintéticos, datos humanos, datos de robots), capacidades de refinamiento de datos, iteración de hardware y co-diseño software-hardware, capacidades de fusión de alto rendimiento de modelos y capacidades de entrega final de hardware. Lo caracterizó como un sistema integral “de guerrero hexagonal”, afirmando que no existen productos maduros de este tipo en todo el mundo y que la ventaja sigue siendo extremadamente profunda.

El CEO de MiniMax, Li Dahai, citó el éxito comercial de Anthropic como evidencia directa en contra de la homogeneización. Dijo que los grandes modelos no pueden ser simplemente “talentos en forma de T” con solo capacidades horizontales generales, sino que deben tener fortalezas verticales. Li explicó que Anthropic se convirtió en un fenómeno global porque construyó capacidades de codificación a un nivel incomparable sobre la base general de su modelo, lo que respaldó valoraciones altas y un desempeño comercial impresionante.

Li afirmó que los grandes modelos se están internalizando en la evolución del sistema, en lugar de puntos técnicos aislados. Dijo que la optimización futura de modelos debe coordinarse profundamente con los escenarios de aplicación, comparándolo con el diseño de motores que debe coordinarse con todo el vehículo, donde las direcciones de optimización difieren por completo para autos de carreras F1 frente a autos de compras de supermercado. Li dijo que la universalidad técnica y la universalidad comercial deben separarse, y que una buena comercialización requiere optimización extrema específica de escenarios, permitiendo a cada empresa establecer su propia ventaja mediante la búsqueda de la dirección adecuada.

Galaxy General reporta inteligencia encarnada en la etapa de GPT-1 a GPT-2

Wang He compartió la práctica de Galaxy General con la propuesta WAM (World Action Model). Antes de que surgiera el paradigma WAM, Galaxy General utilizó 1 mil millones de cuadros de datos de simulación para verificar las posibilidades de escalamiento para habilidades de agarre. La compañía desarrolló GRASP-VLA para lograr agarre de cero-shot de objetos arbitrarios, sin que ningún modelo que dependa de datos de teleoperación real haya alcanzado niveles de desempeño equivalentes hasta la fecha.

Wang explicó que la aparición del paradigma WAM rompió por completo el cuello de botella de datos para la inteligencia encarnada. Los modelos VLA tradicionales requieren datos con etiquetas de acción y solo pueden apoyarse en datos de robots. WAM se enfoca en la Acción como núcleo, realizando planificación de acciones a nivel visual mediante predicción futura sin requerir etiquetas de acción. Esto significa que los robots pueden aprender directamente la lógica de comportamiento a partir de videos humanos, y que el enorme volumen de datos de videos humanos se convierte en material de entrenamiento.

Wang afirmó que Galaxy General publicó el primer paper WAM del mundo en marzo de 2025, y en abril el director del NVIDIA Embodied Intelligence Lab, Jim Fan, dijo que el objetivo final de los robots es WAM. Wang caracterizó el pre-entrenamiento de la inteligencia encarnada como entrando en un periodo explosivo, sin limitaciones para la adquisición de datos. Dijo que, en los próximos dos años, la inteligencia encarnada presentará completamente su momento GPT-3.5, y la entrada serán decenas de millones de horas de datos de alta calidad y miles de millones en inversión de capital.

La IA multimodal y la inteligencia encarnada abren nuevas vías de escalamiento

Wang Zhongyuan reveló que las discusiones de la industria del año pasado sobre el fracaso de Scaling Law surgieron por la ansiedad de que “los datos de pre-entrenamiento de internet se habían agotado”. En los últimos dos años, el post-training, la optimización del razonamiento y la autoevolución recursiva de los Agentes han traído una nueva ola de mejoras de capacidades. Wang dijo que esto no representa necesariamente aumentos de parámetros en los propios modelos, sino que todo el sistema se vuelve cada vez más capaz, y que la IA está transformándose de una herramienta de chat en una herramienta de ejecución.

Como instituto de investigación, Zhiyuan explora la siguiente curva de crecimiento de la inteligencia. En los últimos dos años, el instituto verificó el paradigma de escalamiento en el campo multimodal, y la serie Wujie Emu3, usando menos de 1% de datos multimodales y decenas de miles de millones de parámetros, ya muestra mejoras claras de desempeño. El instituto ahora ha comenzado a avanzar hacia modelos base del mundo físico, explorando rutas de escalamiento para modelos de mundo.

Li Dahai propuso la “ley de densidad de conocimiento” de MiniMax: la inteligencia general de los modelos grandes = densidad de conocimiento × cantidad de parámetros. Reveló que, al desplegar modelos de edge para compañías automotrices el año pasado, solo podían lograr 1B parámetros; este año se actualizó a 4B y, el próximo año, probablemente llegará a decenas de miles de millones. A medida que mejora la tecnología de cuantización y aumenta la densidad de conocimiento, los modelos más fuertes después de la cuantización ocupan los mismos recursos que antes, con la expansión de escala de modelos edge apenas comenzando.

Li dijo que muchas conclusiones por fases en la industria tienen una vida útil muy corta, ya que el desarrollo constantemente trastoca percepciones antiguas. Dijo que no solo los modelos edge tienen un enorme margen de crecimiento, sino que el procesamiento de contexto largo y la optimización de bajo consumo de los grandes modelos de lenguaje aún tienen un potencial de escalamiento muy lejos de haber sido explorado por completo, y que la industria está lejos de llegar a una etapa de convergencia.

El panel identifica ventajas de la cadena de suministro y del talento de China

Wang Zhongyuan afirmó que el desarrollo de la tecnología de IA sigue el mismo camino que la conducción autónoma: necesariamente atraviesa un proceso que va desde la preocupación y el miedo hasta la adaptación y el uso, luego hacia establecer sistemas completos de gobernanza y mecanismos de asignación de responsabilidades. Cuando la tecnología puede aportar mejoras de productividad de 3-5 veces, su popularización no puede bloquearse, y la humanidad, tras experimentar múltiples rondas de olas tecnológicas, encontrará soluciones de gobernanza correspondientes.

Li Dahai dijo que la sociedad humana esencialmente se desarrolló mediante “aprender de los errores”: las reglas de seguridad de los aviones y los límites de velocidad en carretera tienen cada uno lecciones dolorosas detrás. La tecnología de IA mejorará la eficiencia para descubrir vulnerabilidades y corregir problemas, reduciendo en gran medida este costo, y la industria enfatiza mucho los estándares de seguridad desde la etapa de inicio, con empresas que asumen proactivamente responsabilidad social. Li dijo que el patrón de aprender de los errores puede ser difícil de evitar por completo, y que los riesgos de seguridad a menudo aparecen desde dimensiones inesperadas, haciendo que la mejora de reglas mediante lecciones sea una realidad que debe enfrentarse.

Sobre las ventajas de diferenciación de China en IA, Wang Zhongyuan dijo que la cadena de suministro de China, las ventajas de manufactura y el vasto mercado doméstico son suficientes para incubar y catalizar la implementación de nuevas tecnologías, y que la inteligencia encarnada y los modelos de mundo probablemente se convertirán en áreas donde China logre liderazgo diferenciado.

Wang He afirmó con firmeza que la inteligencia encarnada es la oportunidad de China. Expresó su convicción de que el “momento AlphaGo” y el “momento ChatGPT” de la inteligencia encarnada se harán realidad en China; dijo que si se completa el cero a uno en China, el uno a cien definitivamente madurará en China.

Li Dahai añadió el factor subyacente más central: China posee la mayor cantidad de los talentos jóvenes de IA más inteligentes del mundo, que es la ventaja más fundamental. Combinado con las ventajas de cadena de suministro, ecosistema y escenarios, China definitivamente logrará avances significativos en el campo de la IA.

Preguntas frecuentes

¿Qué etapa dijo Galaxy General que ha alcanzado la inteligencia encarnada?

Galaxy General, fundador general y CTO Wang He, dijo en la Conferencia Beijing Zhiyuan que la inteligencia encarnada actualmente está en “la etapa del GPT-1 al GPT-2”, y que la industria apenas está entrando en un periodo de aceleración. Wang dijo que, en los próximos dos años, la inteligencia encarnada vivirá completamente su momento GPT-3.5, y la entrada serán decenas de millones de horas de datos de alta calidad y miles de millones en inversión de capital.

¿Cómo respondieron los participantes del panel a las preocupaciones sobre la homogeneización de modelos de IA?

El director del Instituto de Investigación Zhiyuan, Wang Zhongyuan, dijo que la iteración del desempeño general de los modelos grandes está muy lejos de llegar a un cuello de botella y que las rutas técnicas no han convergido; por eso caracterizó las afirmaciones de homogeneización como prematuras. El CEO de MiniMax, Li Dahai, citó el éxito de Anthropic en capacidades de codificación como evidencia de que las empresas pueden construir diferenciación mediante fortalezas verticales. El fundador de Galaxy General, Wang He, describió la ventaja competitiva de la inteligencia encarnada como un sistema completo que abarca el suministro de datos, la iteración de hardware y las capacidades del modelo, afirmando que no existen productos maduros de este tipo en todo el mundo.

¿Qué ventajas identificó el panel para el desarrollo de IA en China?

Los participantes del panel identificaron múltiples ventajas de China. Wang Zhongyuan citó la cadena de suministro de China, las ventajas de manufactura y el vasto mercado doméstico como suficientes para catalizar la implementación de nuevas tecnologías. Li Dahai dijo que China posee la mayor cantidad de los talentos jóvenes de IA más inteligentes del mundo como la ventaja más fundamental. Wang He expresó su convicción de que los momentos de avance de la inteligencia encarnada comparables a AlphaGo y ChatGPT se harán realidad en China; dijo que si se completa el cero a uno en China, el uno a cien definitivamente madurará en China.

Ver fuente

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Noticias relacionadas

hace5h

El modelo de IA Yunzhisheng U2 se coloca entre los 8 primeros a nivel mundial y abre el acceso a los desarrolladores

hace5h

Marc Andreessen defiende la regulación específica de la IA mientras EE. UU. restringe el acceso al modelo de Anthropic

hace9h

Los modelos de IA chinos alcanzan 18,42 billones de llamadas semanales de tokens, liderando a nivel mundial durante la séptima semana consecutiva