HBM vs GDDR: Cómo la memoria de alto ancho de banda supera el cuello de botella de la "pared de memoria" en el entrenamiento y la inferencia de IA

Mercados
Actualizado: 10/06/2026 05:33

En la carrera de la IA de billones de parámetros, la potencia de cálculo de las GPU acapara la atención, pero un componente mucho más discreto está convirtiéndose silenciosamente en el terreno estratégico de la industria: la memoria de alto ancho de banda (HBM, por sus siglas en inglés). Si una GPU es como un motor sobrealimentado con miles de cilindros, la HBM es el sistema de combustible que mantiene el flujo de datos. Por potente que sea el motor, solo podrá funcionar al ralentí si el suministro de combustible no está a la altura.

El consenso del sector está cambiando: el cuello de botella de la potencia de cálculo en IA ya no se limita a las propias unidades de procesamiento, sino que reside cada vez más en la eficiencia de la transferencia de datos. Los datos muestran que, en arquitecturas de computación tradicionales, el movimiento de datos puede representar entre el 60 % y el 80 % del consumo energético total del sistema. En escenarios de inferencia, la tasa de inactividad de las GPU puede alcanzar hasta el 99 %. El factor limitante clave detrás de esto es el ancho de banda de la memoria.

Aprovechando la tecnología de apilado 3D y las vías a través del silicio (TSV), la HBM logra un ancho de banda y una eficiencia energética por unidad de área muy superiores a la memoria convencional, convirtiéndose en una característica estándar en aceleradores de IA de NVIDIA, AMD, Google y otros gigantes del sector.

Principios técnicos: cómo la HBM redefine el canal de datos entre la GPU y la memoria

De la "pista plana" al "ascensor vertical"

La HBM no es un nuevo medio de almacenamiento, sino un conjunto de especificaciones de interfaz y encapsulado que definen "cómo interconectar la DRAM a un ancho de banda extremadamente alto". Su pila tecnológica central se desglosa en tres capas:

Apilado 3D: varias capas de chips DRAM se apilan verticalmente (las configuraciones más comunes actualmente son de 8 a 12 capas, con HBM4 avanzando hasta 16), multiplicando la densidad de almacenamiento y el número de canales paralelos en la misma superficie física.

Through-Silicon Via (TSV): se graban orificios microscópicos, de apenas 5-10 micras de diámetro, en cada capa de DRAM y se rellenan con material conductor para crear canales verticales, permitiendo decenas de miles de interconexiones entre capas. Esto contrasta radicalmente con el cableado tradicional en PCB, donde las pistas miden centímetros o metros, mientras que la distancia de transmisión de señal en TSV se reduce a la escala de micras, lo que disminuye drásticamente la atenuación y la latencia de la señal.

Interposer de silicio: los stacks de HBM se conectan a un interposer de silicio mediante microbumps, que a su vez enlaza con los chips GPU/CPU a distancias extremadamente cortas, formando un módulo de encapsulado unificado. Toda la estructura emplea tecnologías avanzadas de encapsulado 2,5D como CoWoS para una integración de alta densidad.

El gran avance de esta arquitectura reside en el ancho del bus. Un solo stack de HBM suele ofrecer un bus de 1024 bits, mientras que HBM3E puede escalar hasta 2048 bits. Por ejemplo, el último chip HBM3E de SK hynix, ya en producción masiva, ofrece 24 GB de capacidad y un ancho de banda superior a 1 TB/s. En comparación, las soluciones GDDR tradicionales solo ofrecen 32 bits por chip (o 384 bits en configuraciones multichip), lo que supone diferencias de varios órdenes de magnitud en capacidad de transferencia de datos.

La filosofía de diseño fundamental de la HBM es "ancho y lento": alcanza el ancho de banda total mediante un gran número de canales paralelos, cada uno funcionando a una frecuencia relativamente baja, lo que se traduce en una eficiencia energética muy superior a los diseños de alta frecuencia. Por el contrario, la GDDR sigue una lógica de "estrecho y rápido": exprime el ancho de banda de unos pocos canales aumentando la frecuencia de operación. Estos dos enfoques responden a escenarios de uso completamente distintos: la HBM persigue el máximo rendimiento, mientras que la GDDR busca equilibrar rendimiento y coste.

HBM vs GDDR6: la batalla entre "ancho y lento" y "estrecho y rápido"

Tanto la HBM como la GDDR6 pertenecen a la familia de memorias DRAM y actúan como canales de acceso a los datos para las GPU, pero difieren radicalmente en sus objetivos de diseño, características de rendimiento y estructura de costes.

Ancho de banda: HBM3E alcanza hasta 1,2 TB/s por stack, y se espera que la próxima generación HBM4 supere los 2,0 TB/s. GDDR6X llega a un máximo de aproximadamente 1 TB/s por tarjeta, rozando ya los límites físicos en productos insignia. Sin embargo, la HBM es claramente superior en eficiencia energética por unidad de ancho de banda, lo que se traduce directamente en ventajas cuantificables de coste operativo en despliegues de centros de datos de IA a gran escala.

Consumo y latencia: gracias a las rutas verticales ultracortas de la TSV, la HBM consume alrededor de un 30 % menos de energía que la GDDR5. En cuanto a latencia, la GDDR depende de pistas en PCB para comunicarse con la GPU, lo que suele resultar en retardos de microsegundos; la HBM, encapsulada justo al lado del chip de la GPU, reduce la latencia hasta el rango de los nanosegundos. Es importante señalar que la latencia de acceso aleatorio de la HBM es ligeramente superior a la de la GDDR en escenarios de rendimiento extremo, pero para el acceso paralelo y secuencial a gran escala—el modo típico en entrenamiento e inferencia de IA—el cuello de botella es el ancho de banda.

Coste: este es el mayor inconveniente de la HBM. Los datos del sector muestran que la HBM supera los 25 $ por GB, mientras que la GDDR6 cuesta solo entre 5 $ y 8 $ por GB. La HBM puede representar entre el 60 % y el 80 % del coste total de una GPU de gama alta. De hecho, la GDDR6 ofrece un mejor rendimiento coste/ancho de banda—cuando no se requiere un ancho de banda absoluto máximo, la GDDR6 es claramente más rentable.

En resumen, la elección entre HBM y GDDR es, en esencia, una decisión entre los límites de rendimiento y las restricciones presupuestarias. La HBM es imprescindible en escenarios donde "es necesario alcanzar un umbral de ancho de banda para funcionar", como la inferencia en modelos de billones de parámetros. Por debajo de ese ancho de banda, el sistema simplemente no funciona de manera efectiva. La GDDR6, por su parte, se adapta a escenarios donde "el rendimiento aceptable al menor coste" es la prioridad, como el despliegue de modelos pequeños y medianos (de 7B a 13B parámetros).

No son sustitutos, sino rutas técnicas paralelas para necesidades distintas. Sin embargo, en el entrenamiento de IA y la inferencia a gran escala, las ventajas de la HBM están desplazando progresivamente a la GDDR del núcleo del sector.

El dilema del "muro de memoria": por qué la demanda de HBM crece exponencialmente con modelos de IA más grandes

Para comprender el crecimiento explosivo de la demanda de HBM, hay que volver a un cuello de botella fundamental en la computación de IA: el "muro de memoria".

La brecha creciente entre computación y ancho de banda

En los últimos treinta años, el rendimiento de los procesadores se ha duplicado cada 18-24 meses siguiendo la ley de Moore, pero el ancho de banda de la memoria se ha quedado atrás. Investigaciones sobre IA y el muro de memoria muestran que la capacidad de cómputo de los modelos de IA crece unas 3 veces cada dos años, mientras que el ancho de banda de la memoria solo aumenta 1,6 veces, y el ancho de banda de interconexión aún menos. Esto significa que cada mejora en computación devalúa la capacidad de transferencia de memoria.

Esta contradicción es especialmente aguda en la inferencia. El entrenamiento se basa en la multiplicación de matrices (GEMM), con alta densidad de cómputo—la intensidad aritmética supera los 100 FLOPs/byte. La inferencia, en cambio, se centra en la multiplicación matriz-vector (GEMV), con una intensidad aritmética que a menudo no supera los 2 FLOPs/byte. Cuanto menor es la intensidad aritmética, más depende el rendimiento del sistema del ancho de banda de la memoria y no de la potencia de cálculo—este es el efecto "muro de ancho de banda".

La "carga de transferencia" en la inferencia de modelos grandes

El proceso básico de la inferencia en modelos grandes es: por cada token generado, todos los parámetros del modelo deben cargarse desde la memoria al núcleo de cómputo. Tomemos como ejemplo el modelo Llama 3 70B: con precisión FP16, los pesos suman unos 140 GB. Cada token generado requiere mover los 140 GB de parámetros. Para garantizar una experiencia fluida generando 30 tokens por segundo, el ancho de banda entre la HBM y el núcleo de cómputo debe permitir aproximadamente 4,2 TB de transferencias por segundo.

Esta demanda ya está al límite del hardware principal actual. La NVIDIA H100 SXM5 ofrece 3,35 TB/s de ancho de banda HBM. Es decir, incluso el acelerador de IA más avanzado apenas es suficiente para un modelo de 70 mil millones de parámetros. A medida que los modelos escalen a cientos de miles de millones, billones y más allá, el ancho de banda requerido crecerá de forma lineal—o incluso superlineal.

Doble restricción: capacidad y ancho de banda

La capacidad de memoria es otro factor crítico. Si el tamaño total de los parámetros de un modelo supera la capacidad de HBM de una sola GPU, el modelo debe dividirse en varias GPU para operar en paralelo—un método conocido como paralelismo tensorial. Pero dividir introduce un nuevo cuello de botella: la comunicación frecuente de resultados intermedios entre GPU, lo que puede reducir la eficiencia global.

Así, el valor de la HBM se mide en dos dimensiones: el ancho de banda determina la velocidad de inferencia y la latencia mínima por tarjeta, mientras que la capacidad decide si un modelo cabe en una sola tarjeta, cuántas tarjetas se necesitan y el coste de la comunicación entre tarjetas.

La tendencia del sector es clara: la HBM está pasando de ser una "opción premium" a una "configuración estándar" para la potencia de cálculo en IA. Datos de TrendForce muestran que la demanda de HBM crecerá más del 130 % interanual en 2025, y seguirá aumentando más del 70 % en 2026. La HBM ha pasado de un papel secundario en el procesamiento gráfico a ser un componente central e insustituible en la cadena de computación de IA.

Impacto en toda la industria: de la elección técnica al desequilibrio entre oferta y demanda

Expansión del mercado

El crecimiento del mercado de HBM está superando las previsiones iniciales de la mayoría de las instituciones. Datos de SEMI China proyectan que el mercado de HBM crecerá un 58 % hasta los 54,6 mil millones de dólares en 2026, casi el 40 % del mercado total de DRAM. Micron estima que el TAM (mercado total direccionable) de HBM crecerá a una tasa anual compuesta de alrededor del 40 %, pasando de 35 mil millones de dólares en 2025 a 100 mil millones en 2028—superando el tamaño total del mercado de DRAM en 2024.

Restricciones rígidas de oferta

Pero el auge de la demanda choca con una capacidad de oferta rígida. Los datos de SEMI muestran que, aunque Samsung, SK hynix y Micron han destinado el 70 % de la nueva capacidad (o capacidad ajustable) a la producción de HBM, el déficit total de capacidad de HBM sigue siendo del 50 %-60 %.

El cuello de botella proviene de las elevadas barreras de fabricación de la HBM. La producción requiere tecnología avanzada de procesos DRAM (los principales fabricantes ya están en el nodo 1β nm), además de grabado TSV, unión de microbumps, encapsulado a nivel de oblea y otras tecnologías avanzadas de encapsulado. La capacidad de encapsulado CoWoS de TSMC—la plataforma central para integrar HBM y GPU—se prevé que supere las 125 000 obleas al mes a finales de 2026, un aumento del 79 % interanual, pero sigue siendo insuficiente para cubrir la demanda de pedidos de NVIDIA, AMD, Broadcom y otros.

Riesgos en la cadena de suministro y transmisión de precios

Las carencias de capacidad se reflejan directamente en los precios. Los precios de HBM3E aumentaron entre un 5 % y un 10 % durante 2025. Más importante aún, a medida que los tres principales fabricantes desvían capacidad hacia la HBM, la oferta de memoria DDR para consumo se reduce, y se espera que los precios sigan subiendo hasta finales de 2026. La escasez de HBM está afectando a toda la industria de la memoria al desplazar capacidad.

En junio de 2026, Jensen Huang confirmó que SK hynix, Samsung y Micron ya han superado la certificación y han comenzado el suministro masivo de chips HBM4, con Samsung liderando el sector al iniciar la producción masiva de HBM4 en febrero de 2026. Sin embargo, incluso con la expansión simultánea de los tres gigantes, la brecha entre oferta y demanda de HBM se mantendrá en torno al 50 % durante 2025-2026. Lograr el equilibrio a corto plazo sigue siendo complicado. El ritmo de expansión upstream, los cuellos de botella en capacidad de encapsulado y la rápida demanda downstream de computación de IA crean un panorama dinámico, pero persistentemente ajustado, entre oferta y demanda.

Conclusión

Desde la innovación tecnológica fundamental, pasando por la dependencia rígida en escenarios de computación de IA, hasta el desequilibrio entre oferta y demanda en toda la cadena industrial, la HBM ha evolucionado de ser una rama de la tecnología de memoria a convertirse en el campo de batalla central de la competencia en infraestructuras de IA.

La condición insustituible de la HBM en el entrenamiento e inferencia de IA parte de un principio básico de computación: una vez que el tamaño de los parámetros del modelo supera cierto umbral, el ancho de banda deja de ser una "optimización" para convertirse en un "habilitador"—por debajo de ese umbral, el sistema simplemente no funciona de manera efectiva. La GDDR6 puede tener ventaja de coste, pero su arquitectura de canales estrechos y alta frecuencia no puede igualar el techo de ancho de banda ni la eficiencia energética que exigen los modelos de billones de parámetros. Esta diferencia estructural implica que HBM y GDDR no son simplemente competidores, sino soluciones estratificadas para distintas necesidades en el núcleo de la computación de IA.

De cara al futuro, la producción masiva continua de HBM4 (con un ancho de banda por stack que superará los 2 TB/s), la maduración del apilado de 16 capas y nuevas tecnologías de encapsulado como el hybrid bonding seguirán elevando el techo de rendimiento de la HBM. Sin embargo, cabe destacar que empresas como Huawei están explorando optimizaciones algorítmicas para reducir la dependencia de la HBM, y alternativas como la SRAM y arquitecturas de computación en memoria avanzan en paralelo. Si la HBM podrá mantener su liderazgo a través de nuevas iteraciones tecnológicas, y si sus cuellos de botella de oferta podrán aliviarse en los próximos ciclos de expansión, serán algunas de las variables más importantes a observar en la industria de computación de IA en los próximos años.

The content herein does not constitute any offer, solicitation, or recommendation. You should always seek independent professional advice before making any investment decisions. Please note that Gate may restrict or prohibit the use of all or a portion of the Services from Restricted Locations. For more information, please read the User Agreement
Dale "Me gusta" al contenido