La vague d’IA propulse la demande en mémoire et fait grimper les prix. Pourtant, le marché reste inquiet d’un éventuel scénario où le HBM, comme par le passé, suivrait une logique « cyclique » : après un pic de demande, inversion rapide, à l’instar du DRAM. Des analystes d’architecture semi-conducteurs, fin, soulignent que la logique de demande du HBM s’est détachée des règles traditionnelles de l’industrie de la mémoire : elle se re-précie désormais via les token.
(La hausse des actions mémoire ralentit-elle ? Une évaluation des institutions fait état d’une accélération limitée à 30% au T2, avec un refroidissement supplémentaire au second semestre)
La mémoire à l’ère CPU : un accessoire « optionnel »
fin indique qu’à l’époque où les CPU dominaient l’informatique, le rôle de la DDR restait toujours celui d’un acteur secondaire. Les ingénieurs CPU ont développé tout un ensemble de techniques architecturales visant à masquer les latences mémoire : conception superscalaire, caches multi-niveaux, renommage de registres, etc. De quoi conserver une haute performance sans dépendre de conditions nécessitant une mémoire haut débit :
La règle empirique dans l’industrie est la suivante : même si la bande passante DDR double directement, l’amélioration globale des performances CPU dépasse rarement 20%.
Cette architecture a directement façonné le rythme de croissance du secteur DRAM sur des décennies. De la DDR3 à la DDR5, il a fallu quinze ans ; sur les dix dernières années, la capacité DDR d’un PC classique est passée de 7 à 8 GB à environ 23 GB : en dix ans, elle n’a été multipliée que par 3. Pour les fabricants de DRAM, la source principale de profit repose sur la taille des capacités ; les mises à niveau de bande passante ne servent qu’à faire monter le prix unitaire.
À l’ère des CPU, la mémoire est l’un des maillons ayant l’utilité marginale la plus faible dans l’industrie des puces : les variations cycliques sont la norme, et presque une fatalité.
L’ère de l’inférence IA réécrit la valeur de la mémoire
Mais lorsque le rôle de protagoniste bascule vers les moteurs d’inférence IA, les critères d’évaluation changent eux aussi : les fabricants de puces ne comparent plus que le nombre d’opérations en virgule flottante exécutées par seconde. Désormais, le KPI central à l’ère de l’IA est réduit à un seul enjeu : combien de Token peut-on produire pour un coût et une consommation énergétique donnés.
Le concept d’« usine d’IA » proposé par le CEO de Nvidia, Jensen Huang, décrit avec précision cette nouvelle logique : l’usine d’IA existe pour produire le plus de Token possible au coût le plus bas, tout en poussant la vitesse de sortie des Token au maximum. L’objectif d’optimisation s’étend d’une dimension unique vers l’extérieur : il faut à la fois maximiser le débit total de Token, et viser une vitesse de génération des Token par requête aussi élevée que possible.
Ce changement de KPI devient le point de départ du retournement du destin du HBM.
La formule de débit des token révèle la première logique de demande du HBM
fin décompose le débit des token d’inférence IA en un produit de deux paramètres : « nombre de lots de requêtes traités simultanément × vitesse moyenne de génération de Token par requête ». Il remonte ainsi aux goulots d’étranglement de chaque paramètre, et la réponse pointe vers la même pièce.
Le goulot « nombre de lots » tient à la capacité de stockage du HBM. Chaque requête d’inférence transporte son propre cache KV : un mécanisme de stockage d’états intermédiaires dans le processus d’inférence du modèle. Ce cache doit être stocké dans le HBM en temps réel, afin que le modèle puisse le relire à très grande vitesse à chaque fois qu’il génère un Token. Plus le lot est grand, plus l’espace de stockage nécessaire en HBM est important : les deux entretiennent une relation linéaire.
Le goulot « vitesse des token » tient à la bande passante du HBM. À l’étape de décodage, pour chaque Token produit, le modèle doit relire à répétition les poids de lancement volumineux et le cache KV. La vitesse de lecture détermine directement l’efficacité de génération des Token ; et la limite de cette vitesse, c’est la bande passante du HBM.
Il propose une analogie : les données en HBM font office de compartiment de wagon d’une navette d’aéroport. La capacité du compartiment détermine le nombre de passagers qu’on peut transporter en une fois ; la largeur de la porte du wagon correspond à la bande passante du HBM et détermine la vitesse avec laquelle les passagers montent et descendent. Le débit total de transport correspond au produit « taille du compartiment × vitesse des passagers ». On en déduit la première règle pour les besoins en matériel d’inférence IA :
Débit des token = capacité du HBM × bande passante du HBM
Pour que le débit des token de chaque génération de GPU maintienne une croissance multipliée par deux d’une génération à l’autre, le produit « capacité HBM × bande passante HBM » doit doubler à chaque génération.
L’optimisation logicielle ne résout pas l’équation : la demande en HBM est verrouillée sur une trajectoire exponentielle
Face à cette logique, l’objection la plus fréquente du marché est la suivante : l’optimisation logicielle ne pourrait-elle pas réduire la dépendance au HBM ? Sa réponse est que l’amélioration de l’efficacité logicielle et le progrès des spécifications matérielles sont deux dimensions totalement indépendantes et ne se substituent pas l’une à l’autre. C’est comme si, même avec une optimisation logicielle CPU parfaitement poussée, on ne pouvait pas empêcher Intel ou AMD d’avoir, à chaque génération, à sortir de meilleurs scores dans les tests standard ; sinon, le produit ne se vendrait pas.
La logique des GPU est identique : tant que la demande mondiale en token continue de s’étendre, la quête de débits plus élevés de token ne s’arrêtera pas, et les besoins d’amélioration des deux aspects du HBM ne s’arrêteront pas non plus.
Le point plus crucial est que la pression ne vient pas d’un appel de la conjoncture extérieure, mais d’une demande endogène côté offre. Tant que Nvidia doit vendre un GPU de prochaine génération, elle devra forcément faire pression sur SK Hynix, Samsung et Micron, en exigeant que chaque génération de HBM progresse à la fois en capacité et en bande passante. Car le plafond du HBM, c’est le plafond de performance des GPU.
En traçant sur le même graphique à double échelle (log-log) le débit des token des GPU de chaque génération de Nvidia, de A100 à Rubin Ultra, avec les valeurs correspondantes de « capacité HBM × bande passante HBM », le niveau d’adéquation des deux courbes sera surprenant. Ce n’est pas une coïncidence historique, mais une conséquence inévitable de l’optimisation système.
Adieu à la fatalité cyclique du HBM, la logique de tarification du marché reste à réévaluer
Au vu de la déduction architecturale ci-dessus, la différence de nature entre le HBM et le DRAM traditionnel est désormais claire. La mémoire traditionnelle est un « accessoire » de l’industrie des puces : la demande est peu porteuse, et dès que le calendrier d’augmentation de capacités dépasse le redressement de la demande, la baisse cyclique des prix arrive comme prévu.
Mais la demande en HBM est verrouillée, par la logique physique même de l’architecture d’inférence IA, sur une trajectoire de croissance exponentielle. Elle n’a aucun lien causal direct avec la chaleur et le froid du marché de l’IA, ni avec le cycle conjoncturel global de l’économie.
Bien sûr, le vrai problème n’est pas du côté de la demande, mais du côté de l’offre : SK Hynix, Samsung et Micron, ces trois principaux acteurs, sauront-ils, face à une demande solide, réprimer l’impulsion d’expansion aveugle répétée pendant des dizaines d’années, et éviter de replanter les graines d’un cycle de mal de l’offre excédentaire ? La réponse à cette question sera la variable clé pour savoir si le cycle de mémoire de ce tour pourra se prolonger durablement.
(Peut-on acheter quand les actions mémoire s’effondrent encore ? Un analyste de Samsung Securities : corrections en cycle plutôt que sommet du marché haussier)
Cet article brise le mythe de la cyclicité ! Une formule qui décompose la structure de la demande en HBM : pourquoi la mémoire ne ferait que continuer à monter ? Publié pour la première fois sur LienNews ABMedia.
Articles similaires
Un expert financier explique pourquoi le marché boursier va s’effondrer — et si la crypto pouvait plutôt rebondir ?
Le challenger de Nvidia, Cerebras, prévoit une introduction en bourse avec une valorisation de 40 milliards, et derrière cela reste TSMC en procédé 5 nm
Les yeux à trois cercles $1B : l’introduction en bourse à Hong Kong après l’approbation de la Chine
Cerebras prévoit une introduction en bourse (IPO) à $4B au Nasdaq, et démarre une tournée de présentation le 4 mai à 115 $ à 125 $ par action
Les entrées d’ETP crypto de WisdomTree atteignent $137M au T1
Threads atteint 150 millions d'utilisateurs quotidiens ; Meta met en garde sur les revenus à court terme