El equipo de MIT de Kaiming He lanza un modelo de difusión de lenguaje ELF con 45B de tokens de entrenamiento

Según Beating, el equipo de MIT Kaiming He publicó recientemente ELF (Embedded Language Flows), un modelo de difusión de lenguaje que se aparta del enfoque autoregresivo de “predecir el siguiente token” utilizado por los modelos tipo GPT. En su lugar, ELF realiza la generación de texto en un espacio de incrustaciones continuo, convirtiendo en tokens discretos solo en el paso final.

En los puntos de referencia de generación incondicional en OpenWebText, ELF-B, con 105M parámetros, logró aproximadamente 24,1 de perplexidad de generación (Gen. PPL) con muestreo de 32 pasos, superando varios modelos base de lenguaje de difusión discretos y continuos. En particular, ELF-B necesitó solo aproximadamente 45 mil millones de tokens de entrenamiento, unas diez veces menos que métodos comparables que normalmente superan 500 mil millones de tokens.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Tesla planea más productos de IA para China, aprovechando a más de 400 proveedores locales

Según China Daily, Tesla planea llevar más productos de IA e inteligentes a China, con la vicepresidenta Grace Tao destacando la profunda integración de la cadena de suministro de la empresa en el país. En marzo de 2026, Tesla trabaja con más de 400 proveedores chinos, más de 60 de los cuales abastecen su red global, con la localización de piezas en su Gigafábrica de Shanghái superando el 95%. La empresa opera 588 tiendas operadas directamente en 119 ciudades chinas continentales, respaldadas po

GateNewsHace11m

SoftBank informa 45 mil millones de dólares en ganancias no realizadas por su inversión en OpenAI al cierre de marzo

Según ChainCatcher, SoftBank informó ganancias no realizadas acumuladas por valor de 45 mil millones de dólares de su inversión en OpenAI a finales de marzo. En abril de 2026, la empresa desplegó 20 mil millones de dólares en préstamos principalmente para la inversión en OpenAI, de los cuales 2,5 mil millones de dólares fueron reembolsados en el mismo mes.

GateNewsHace11m

El embajador chino Xie Feng pide una competencia sana de IA con EE. UU. de cara a la visita de Trump

Según la Embajada de EE. UU. en China, el embajador chino en Estados Unidos, Xie Feng, habló sobre las relaciones entre EE. UU. y China y sobre la próxima visita a China del presidente Trump en una entrevista con el corresponsal sénior de política diplomática de Newsweek, Tom O'Connor, publicada antes del viaje.

GateNewsHace21m

La UE analiza unirse a la Alianza de tecnología Pax Silica, respaldada por EE. UU., en las próximas semanas

Según Bloomberg, la Unión Europea está en conversaciones para unirse a Pax Silica, una alianza respaldada por EE. UU. para semiconductores, infraestructura de IA, minerales críticos y centros de datos, como parte de los esfuerzos para reducir la dependencia de China. La Comisión Europea planea enviar a un alto funcionario a EE. UU. en las próximas semanas para revisar los términos. El movimiento llega después de que Suecia y Finlandia ya se unieran a la alianza, y de que la UE busca el apoyo de

GateNewsHace31m

Samsung planea la producción masiva en el 4T de módulos de memoria para servidores de IA CXL 3.1

De acuerdo con The Korea Herald, Samsung Electronics planea comenzar la producción masiva de sus módulos de memoria CXL 3.1 para servidores de IA en el cuarto trimestre, después de los envíos de muestra en el tercer trimestre. El módulo CMM-D 3.1 combina DRAM y un controlador CXL en una sola placa, con capacidad de hasta 1 terabyte y un ancho de banda de 72 gigabytes por segundo en PCIe 6.0. Samsung anteriormente envió muestras de CXL 2.0 a más de 40 empresas, incluidas Microsoft y Amazon.

GateNewsHace41m

El ex investigador de IA de Alibaba, Linjun Lin, lanza un nuevo laboratorio de IA valorado en alrededor de 2 mil millones de dólares

Según The Information, Linjun Lin, un ex investigador de IA en Alibaba, recientemente fundó un nuevo laboratorio de inteligencia artificial. Se estima que la puesta en marcha tiene un valor de aproximadamente 2 mil millones de dólares.

GateNewsHace43m
Comentar
0/400
Sin comentarios