Mensaje de Gate News, 24 de abril — la jefa del equipo de modelos de lenguaje de Xiaomi, Luo Fuli, reveló en una entrevista en profundidad que el modelo MiMo-V2-Pro cuenta con un total de 1 billón de parámetros y que requirió miles de GPUs para el entrenamiento. Señaló que la escala de 1T representa el umbral mínimo para lograr un rendimiento cercano al nivel de Claude Opus 4.6 y asegurar un pase de entrada competitivo para la siguiente fase de agentes de IA.
Técnicamente, la versión Pro emplea un mecanismo extremo de atención dispersa con una proporción 7:1 entre la atención global y la atención de ventana deslizante, controlando los costos de inferencia para el procesamiento de contextos largos. El modelo también conserva la arquitectura MTP (Multi-Token Prediction) para aprovechar el exceso de potencia de cómputo y lograr una inferencia más rápida.
En el aspecto de gestión, el equipo MiMo de 100 personas solo cuenta con 30-40 integrantes involucrados directamente en las iteraciones principales. El equipo opera sin jerarquías formales ni divisiones explícitas de subgrupos, y sin fechas límite de entrega. Cuando se encuentran problemas numéricos inestables como picos en la pérdida de entrenamiento, el equipo prioriza detener el entrenamiento para investigarlo, incluso si eso significa detener las operaciones durante una o dos semanas y asumir costos de cómputo de millones de dólares.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
La infraestructura de IA de Web3 AIW3 recauda $2M en financiación semilla liderada por Buffalo Capital
Mensaje de Gate News, 24 de abril — La plataforma de infraestructura de IA para Web3, AIW3, anunció la finalización de una ronda semilla de financiación de $2 millones. La ronda fue liderada por Buffalo Capital, con GalaXin Capital y Three-stones Ventures participando como coinversores.
AIW3 se está trasladando hacia un paradigma de ejecución en cadena de Agent-as-a-Service
GateNewsHace6m
Cohere adquiere la firma alemana de IA Aleph Alpha y asegura $600M inversión para la expansión europea
Mensaje de Gate News, 24 de abril: la empresa canadiense de IA Cohere anunció planes para adquirir la firma alemana de IA Aleph Alpha para reforzar su presencia en Europa. Schwarz Group, un patrocinador de Aleph Alpha, planea invertir $600 millones en la ronda de financiación Serie E de Cohere.
Se espera que la ronda de financiación cierre en 202
GateNewsHace48m
Xpeng, Xiaomi Lead In-Car AI Push at Beijing Auto Show
Gate News message, April 24 — Chinese automakers showcased advanced in-car AI systems at the Beijing Auto Show on April 24, as the country accelerates its AI Plus strategy and seeks greater independence from foreign semiconductors.
Xpeng demonstrated voice-controlled parking that allows drivers to
GateNewshace1h
Ex ingeniero de Seed de ByteDance: la iteración de la IA de ByteDance tarda seis meses frente a los tres meses de Google
Mensaje de Gate News, 24 de abril — Zhang Chi, ex ingeniero del equipo Seed de ByteDance y profesor asistente actual en la Universidad de Pekín, reveló en el podcast "Into Asia" que ByteDance requiere aproximadamente seis meses para completar un ciclo completo de entrenamiento de preentrenamiento de modelos de lenguaje a gran escala (pretraining
GateNewshace1h
El ingeniero de OpenAI Clive Chan cuestiona las recomendaciones de hardware de V4, citando errores y falta de claridad frente a V3
Mensaje de Gate News, 24 de abril — El ingeniero de OpenAI, Clive Chan, ha presentado objeciones detalladas al capítulo de recomendaciones de hardware en el informe técnico V4, calificándolo de "sorprendentemente mediocre y propenso a errores" en comparación con la versión V3 aclamada. La guía de hardware de V3, que incluyó sesiones de Q&A
GateNewshace2h
Naver lanza la beta de AI Tab mientras Google Gemini entra en el mercado de búsquedas de Corea del Sur
Mensaje de Gate News, 24 de abril — Naver anunció el inicio de una beta cerrada para AI Tab, su nueva función de búsqueda conversacional, tras el lanzamiento de Gemini en Chrome por parte de Google en Corea del Sur.
AI Tab aparecerá junto a las pestañas de búsqueda existentes de Naver, ofreciendo a los usuarios un espacio dedicado para consultas conversacionales
GateNewshace2h