HBM vs GDDR : la mémoire à large bande passante face au « mur de la mémoire » en IA

Marchés
Mis à jour: 10/06/2026 05:33

Dans la course à l’IA aux milliers de milliards de paramètres, la puissance de calcul des GPU attire l’attention, mais un composant bien plus discret s’impose progressivement comme un enjeu stratégique majeur : la mémoire à haute bande passante (HBM). Si l’on compare un GPU à un moteur surpuissant doté de milliers de cylindres, la HBM serait le système d’alimentation qui assure un flux continu de données. Quelle que soit la puissance du moteur, il ne peut tourner qu’au ralenti si l’alimentation en carburant ne suit pas.

Le consensus industriel évolue : le principal goulot d’étranglement de la puissance de calcul pour l’IA ne réside plus uniquement dans les unités de calcul elles-mêmes, mais de plus en plus dans l’efficacité du transfert de données. Les données montrent que, dans les architectures informatiques traditionnelles, le déplacement des données peut représenter 60 % à 80 % de la consommation énergétique totale du système. Dans les scénarios d’inférence, le taux d’inactivité des GPU peut atteindre 99 %. Le facteur limitant clé derrière cela est la bande passante mémoire.

Grâce à l’empilement 3D et à la technologie TSV (Through-Silicon Via), la HBM offre une bande passante et une efficacité énergétique par unité de surface bien supérieures à celles de la mémoire conventionnelle, devenant ainsi une caractéristique standard des accélérateurs d’IA chez NVIDIA, AMD, Google et d’autres acteurs majeurs du secteur.

Principes techniques : comment la HBM redéfinit le canal de données entre GPU et mémoire

Du « circuit plat » à « l’ascenseur vertical »

La HBM n’est pas un nouveau support de stockage ; il s’agit d’un ensemble de spécifications d’interface et d’encapsulation définissant « la manière d’interconnecter la DRAM à une bande passante extrêmement élevée ». Sa pile technologique se décompose en trois couches :

Empilement 3D — Plusieurs couches de puces DRAM sont empilées verticalement (les configurations courantes vont de 8 à 12 couches, avec la HBM4 qui passe à 16 couches), multipliant la densité de stockage et le nombre de canaux parallèles dans la même empreinte physique.

Through-Silicon Via (TSV) — Des trous microscopiques, de seulement 5 à 10 microns de diamètre, sont gravés dans chaque couche de DRAM et remplis de matériau conducteur pour créer des canaux verticaux, permettant des dizaines de milliers d’interconnexions entre les couches. Cela contraste fortement avec le câblage traditionnel sur PCB, où la longueur des pistes se mesure en centimètres ou en mètres, alors que la transmission de signaux via TSV est réduite à l’échelle du micron, ce qui diminue considérablement l’atténuation et la latence du signal.

Interposeur en silicium — Les empilements HBM sont connectés à un interposeur en silicium via des micro-bumps, qui relient ensuite les puces GPU/CPU sur des distances extrêmement courtes, formant un module d’encapsulation unifié. L’ensemble utilise des technologies avancées d’encapsulation 2,5D comme CoWoS pour une intégration à haute densité.

La véritable avancée de cette architecture réside dans la largeur du bus. Un seul empilement HBM offre généralement un bus de 1 024 bits, tandis que la HBM3E peut atteindre 2 048 bits. Par exemple, la dernière puce HBM3E produite en masse par SK hynix propose une capacité de 24 Go et une bande passante supérieure à 1 To/s. À titre de comparaison, les solutions GDDR traditionnelles offrent seulement 32 bits par puce (ou 384 bits en configuration multi-puces), ce qui génère des écarts de plusieurs ordres de grandeur en matière de capacité de transfert de données.

La philosophie fondamentale de conception de la HBM est « large et lente » : elle atteint une bande passante totale grâce à de nombreux canaux parallèles fonctionnant à une fréquence relativement basse, ce qui améliore nettement l’efficacité énergétique par rapport aux conceptions à haute fréquence. À l’inverse, la GDDR suit une logique « étroite et rapide » — elle augmente la bande passante en accélérant la fréquence d’un nombre limité de canaux. Ces deux approches répondent à des besoins applicatifs très différents : la HBM vise le débit maximal, tandis que la GDDR équilibre débit et coût.

HBM vs GDDR6 : le duel « large et lent » contre « étroit et rapide »

La HBM et la GDDR6 appartiennent toutes deux à la famille des mémoires DRAM, servant de canaux d’accès aux données pour les GPU, mais elles diffèrent fondamentalement dans leurs objectifs de conception, leurs caractéristiques de performance et leur structure de coût.

Bande passante : La HBM3E atteint jusqu’à 1,2 To/s par empilement, et la prochaine génération HBM4 devrait dépasser 2,0 To/s. La GDDR6X plafonne à environ 1 To/s par carte, ce qui approche déjà les limites physiques des produits phares. Toutefois, la HBM est nettement supérieure en efficacité énergétique par unité de bande passante, ce qui se traduit directement par des avantages mesurables en coûts opérationnels dans les déploiements de centres de données IA à grande échelle.

Consommation et latence : Grâce aux chemins verticaux ultra-courts du TSV, la HBM consomme environ 30 % d’énergie en moins que la GDDR5. En termes de latence, la GDDR utilise les pistes du PCB pour communiquer avec le GPU, ce qui entraîne généralement des délais de l’ordre de la microseconde ; la HBM, encapsulée directement à côté de la puce GPU, réduit la latence à l’échelle de la nanoseconde. Il convient de noter que la latence d’accès aléatoire de la HBM est légèrement supérieure à celle de la GDDR dans des scénarios de débit extrême, mais pour un accès en streaming parallèle à grande échelle — mode typique pour l’entraînement et l’inférence IA — le débit reste le goulot d’étranglement principal.

Coût : Il s’agit du principal inconvénient de la HBM. Les données du secteur montrent que la HBM coûte plus de 25 $ par Go, contre seulement 5 à 8 $ par Go pour la GDDR6. La HBM peut représenter 60 % à 80 % du coût total d’un GPU haut de gamme. La GDDR6 offre en réalité une meilleure performance coût/bande passante — lorsque le débit maximal absolu n’est pas requis, la GDDR6 s’avère nettement plus économique.

En résumé, le choix entre HBM et GDDR est fondamentalement un arbitrage entre limites de performance et contraintes budgétaires. La HBM est indispensable dans les scénarios où « un seuil de bande passante doit être atteint pour fonctionner » — comme l’inférence sur des modèles à mille milliards de paramètres. En dessous de ce seuil, le système ne fonctionne tout simplement pas efficacement. La GDDR6, quant à elle, répond aux besoins où « une performance acceptable au coût minimum » est recherchée, comme le déploiement de modèles petits à moyens (7B-13B paramètres).

Les deux ne sont pas substituables, mais représentent des voies techniques parallèles pour des besoins différents. Pourtant, dans l’entraînement IA et l’inférence à grande échelle, les avantages de la HBM évincent progressivement la GDDR du cœur du marché.

Le dilemme du « mur mémoire » : pourquoi la demande HBM explose avec la taille des modèles IA

Pour comprendre la croissance exponentielle de la demande en HBM, il faut revenir à un goulot d’étranglement fondamental de l’informatique IA : le « mur mémoire ».

L’écart grandissant entre puissance de calcul et bande passante

Au cours des trente dernières années, la performance des processeurs a doublé tous les 18 à 24 mois, conformément à la loi de Moore, mais la bande passante mémoire n’a pas suivi le rythme. Les recherches sur l’IA et le mur mémoire montrent que la puissance de calcul des modèles IA augmente environ trois fois tous les deux ans, tandis que la bande passante mémoire ne fait que croître d’un facteur 1,6, et la bande passante d’interconnexion encore moins. Chaque amélioration du calcul dévalue donc la capacité de transfert mémoire.

Cette contradiction est particulièrement aiguë en inférence. L’entraînement repose sur la multiplication matricielle (GEMM), avec une densité de calcul élevée — l’intensité arithmétique peut dépasser 100 FLOPs/octet. L’inférence, en revanche, se concentre sur la multiplication matrice-vecteur (GEMV), avec une intensité souvent inférieure à 2 FLOPs/octet. Plus l’intensité arithmétique est faible, plus la performance du système dépend de la bande passante mémoire plutôt que de la puissance de calcul — c’est l’effet « mur de bande passante ».

La « charge de transfert » de l’inférence sur les grands modèles

Le processus de base de l’inférence sur un grand modèle est le suivant : pour chaque token généré, tous les paramètres du modèle doivent être chargés depuis la mémoire vers le cœur de calcul. Prenons l’exemple du modèle Llama 3 70B : en précision FP16, les poids totalisent environ 140 Go. Chaque token généré nécessite le transfert de l’ensemble des 140 Go de paramètres. Pour garantir une génération fluide de 30 tokens par seconde, la bande passante entre la HBM et le cœur de calcul doit permettre environ 4,2 To de transferts par seconde.

Cette exigence atteint déjà les limites du matériel courant. Le NVIDIA H100 SXM5 propose 3,35 To/s de bande passante HBM. Autrement dit, même l’accélérateur IA le plus performant est tout juste suffisant pour un modèle à 70 milliards de paramètres. À mesure que les modèles atteignent des centaines de milliards, voire des milliers de milliards de paramètres, la bande passante requise croît linéairement — voire de manière superlinéaire.

Double contrainte : capacité et bande passante

La capacité mémoire est un autre facteur critique. Si la taille totale des paramètres d’un modèle dépasse la capacité HBM d’un GPU, le modèle doit être réparti sur plusieurs GPU pour fonctionner en parallèle — une méthode appelée parallélisme tensoriel. Mais cette répartition introduit un nouveau goulot d’étranglement : la communication fréquente des résultats intermédiaires entre GPU, ce qui peut finalement réduire l’efficacité globale.

La valeur de la HBM s’exprime donc sur deux axes : la bande passante détermine la vitesse d’inférence par carte et la latence minimale, tandis que la capacité décide si un modèle tient sur une seule carte, combien de cartes sont nécessaires et le coût de la communication inter-cartes.

La tendance du secteur est claire : la HBM passe du statut d’« option premium » à celui de « configuration standard » pour la puissance de calcul IA. Les données de TrendForce montrent que la demande de HBM augmentera de plus de 130 % d’une année sur l’autre en 2025, et continuera à croître de plus de 70 % en 2026. La HBM est passée d’un rôle de soutien dans le traitement graphique à un composant central et irremplaçable de la chaîne de calcul IA.

Impact sectoriel : des choix techniques à l’équilibre offre-demande sur le marché

Expansion du marché

La croissance du marché HBM dépasse les prévisions initiales de la plupart des institutions. Les données de SEMI China prévoient une croissance de 58 % du marché HBM, atteignant 54,6 milliards de dollars en 2026, soit près de 40 % du marché total de la DRAM. Micron estime que le TAM (marché adressable total) de la HBM croîtra à un taux annuel composé d’environ 40 %, passant de 35 milliards de dollars en 2025 à 100 milliards en 2028 — dépassant la taille du marché DRAM en 2024.

Contraintes rigides d’approvisionnement

Mais la demande croissante se heurte à une capacité d’approvisionnement rigide. Les données de SEMI montrent que, bien que Samsung, SK hynix et Micron aient réorienté 70 % de leur capacité nouvelle ou ajustable vers la production HBM, le déficit global de capacité HBM reste de 50 % à 60 %.

Le goulot d’étranglement provient des barrières élevées à la fabrication de la HBM. La production nécessite une technologie de fabrication DRAM avancée (les leaders sont désormais au nœud 1β nm), ainsi que la gravure TSV, le bonding micro-bump, l’encapsulation au niveau du wafer et d’autres technologies d’encapsulation avancées. La capacité d’encapsulation CoWoS de TSMC — plateforme centrale pour l’intégration HBM-GPU — devrait dépasser 125 000 wafers par mois fin 2026, soit une hausse de 79 % sur un an, mais reste insuffisante face à la demande de commandes de NVIDIA, AMD, Broadcom et autres.

Risques de chaîne d’approvisionnement et transmission des prix

Les pénuries de capacité se reflètent directement sur les prix. Les prix de la HBM3E ont augmenté de 5 % à 10 % en 2025. Plus important encore, alors que les trois principaux fabricants réorientent leur capacité vers la HBM, l’offre de mémoire DDR grand public diminue, et les prix devraient continuer à augmenter jusqu’à fin 2026. Les pénuries de HBM impactent l’ensemble de l’industrie mémoire en réduisant la capacité disponible.

En juin 2026, Jensen Huang a confirmé que SK hynix, Samsung et Micron ont tous obtenu la certification et commencé la production en masse de puces HBM4, Samsung prenant la tête en lançant la production de masse en février 2026. Pourtant, même avec l’expansion simultanée des trois géants, l’écart entre l’offre et la demande de HBM restera d’environ 50 % sur la période 2025-2026. Atteindre un équilibre offre-demande à court terme reste difficile. Le rythme d’expansion en amont, les goulots d’étranglement de la capacité d’encapsulation et la demande rapide en calcul IA en aval créent un paysage dynamique mais durablement tendu.

Conclusion

De l’innovation technologique fondamentale à la dépendance rigide dans les scénarios de calcul IA, jusqu’au déséquilibre offre-demande dans l’ensemble de la chaîne industrielle, la HBM a évolué d’une branche technologique mémoire à un champ de bataille central de l’infrastructure IA.

L’irremplaçabilité de la HBM dans l’entraînement et l’inférence IA découle d’un principe informatique de base : une fois la taille des paramètres du modèle franchie un certain seuil, la bande passante n’est plus une « optimisation », mais un « facteur habilitant » — en dessous de ce seuil, le système ne fonctionne pas efficacement. La GDDR6 peut présenter un avantage en termes de coût, mais son architecture à canaux étroits et haute fréquence ne peut rivaliser avec le plafond de bande passante et l’efficacité énergétique requis pour les modèles à mille milliards de paramètres. Cette différence structurelle fait que la HBM et la GDDR ne sont pas simplement des concurrents, mais des solutions complémentaires pour des besoins distincts au cœur du calcul IA.

À l’avenir, la production de masse continue de la HBM4 (avec une bande passante par empilement attendue de plus de 2 To/s), la maturation de l’empilement 16 couches et les nouvelles technologies d’encapsulation comme le hybrid bonding pousseront encore plus loin les performances de la HBM. Il convient toutefois de noter que des entreprises comme Huawei explorent des optimisations algorithmiques pour réduire la dépendance à la HBM, et que des alternatives telles que la SRAM ou les architectures compute-in-memory progressent en parallèle. La capacité de la HBM à conserver son avance au fil des évolutions technologiques, et la possibilité d’atténuer ses goulots d’étranglement d’approvisionnement lors des prochains cycles d’expansion, seront parmi les variables les plus importantes à surveiller dans l’industrie du calcul IA au cours des prochaines années.

The content herein does not constitute any offer, solicitation, or recommendation. You should always seek independent professional advice before making any investment decisions. Please note that Gate may restrict or prohibit the use of all or a portion of the Services from Restricted Locations. For more information, please read the User Agreement
Liker le contenu