Briser l’illusion de la cyclicité ! Une formule décompose la structure de la demande en HBM : pourquoi la mémoire ne ferait que continuer à augmenter ?

ChainNewsAbmedia

La vague d’IA propulse la demande en mémoire et fait grimper les prix. Pourtant, le marché reste inquiet d’un éventuel scénario où le HBM, comme par le passé, suivrait une logique « cyclique » : après un pic de demande, inversion rapide, à l’instar du DRAM. Des analystes d’architecture semi-conducteurs, fin, soulignent que la logique de demande du HBM s’est détachée des règles traditionnelles de l’industrie de la mémoire : elle se re-précie désormais via les token.

(La hausse des actions mémoire ralentit-elle ? Une évaluation des institutions fait état d’une accélération limitée à 30% au T2, avec un refroidissement supplémentaire au second semestre)

La mémoire à l’ère CPU : un accessoire « optionnel »

fin indique qu’à l’époque où les CPU dominaient l’informatique, le rôle de la DDR restait toujours celui d’un acteur secondaire. Les ingénieurs CPU ont développé tout un ensemble de techniques architecturales visant à masquer les latences mémoire : conception superscalaire, caches multi-niveaux, renommage de registres, etc. De quoi conserver une haute performance sans dépendre de conditions nécessitant une mémoire haut débit :

La règle empirique dans l’industrie est la suivante : même si la bande passante DDR double directement, l’amélioration globale des performances CPU dépasse rarement 20%.

Cette architecture a directement façonné le rythme de croissance du secteur DRAM sur des décennies. De la DDR3 à la DDR5, il a fallu quinze ans ; sur les dix dernières années, la capacité DDR d’un PC classique est passée de 7 à 8 GB à environ 23 GB : en dix ans, elle n’a été multipliée que par 3. Pour les fabricants de DRAM, la source principale de profit repose sur la taille des capacités ; les mises à niveau de bande passante ne servent qu’à faire monter le prix unitaire.

À l’ère des CPU, la mémoire est l’un des maillons ayant l’utilité marginale la plus faible dans l’industrie des puces : les variations cycliques sont la norme, et presque une fatalité.

L’ère de l’inférence IA réécrit la valeur de la mémoire

Mais lorsque le rôle de protagoniste bascule vers les moteurs d’inférence IA, les critères d’évaluation changent eux aussi : les fabricants de puces ne comparent plus que le nombre d’opérations en virgule flottante exécutées par seconde. Désormais, le KPI central à l’ère de l’IA est réduit à un seul enjeu : combien de Token peut-on produire pour un coût et une consommation énergétique donnés.

Le concept d’« usine d’IA » proposé par le CEO de Nvidia, Jensen Huang, décrit avec précision cette nouvelle logique : l’usine d’IA existe pour produire le plus de Token possible au coût le plus bas, tout en poussant la vitesse de sortie des Token au maximum. L’objectif d’optimisation s’étend d’une dimension unique vers l’extérieur : il faut à la fois maximiser le débit total de Token, et viser une vitesse de génération des Token par requête aussi élevée que possible.

Ce changement de KPI devient le point de départ du retournement du destin du HBM.

La formule de débit des token révèle la première logique de demande du HBM

fin décompose le débit des token d’inférence IA en un produit de deux paramètres : « nombre de lots de requêtes traités simultanément × vitesse moyenne de génération de Token par requête ». Il remonte ainsi aux goulots d’étranglement de chaque paramètre, et la réponse pointe vers la même pièce.

Le goulot « nombre de lots » tient à la capacité de stockage du HBM. Chaque requête d’inférence transporte son propre cache KV : un mécanisme de stockage d’états intermédiaires dans le processus d’inférence du modèle. Ce cache doit être stocké dans le HBM en temps réel, afin que le modèle puisse le relire à très grande vitesse à chaque fois qu’il génère un Token. Plus le lot est grand, plus l’espace de stockage nécessaire en HBM est important : les deux entretiennent une relation linéaire.

Le goulot « vitesse des token » tient à la bande passante du HBM. À l’étape de décodage, pour chaque Token produit, le modèle doit relire à répétition les poids de lancement volumineux et le cache KV. La vitesse de lecture détermine directement l’efficacité de génération des Token ; et la limite de cette vitesse, c’est la bande passante du HBM.

Il propose une analogie : les données en HBM font office de compartiment de wagon d’une navette d’aéroport. La capacité du compartiment détermine le nombre de passagers qu’on peut transporter en une fois ; la largeur de la porte du wagon correspond à la bande passante du HBM et détermine la vitesse avec laquelle les passagers montent et descendent. Le débit total de transport correspond au produit « taille du compartiment × vitesse des passagers ». On en déduit la première règle pour les besoins en matériel d’inférence IA :

Débit des token = capacité du HBM × bande passante du HBM

Pour que le débit des token de chaque génération de GPU maintienne une croissance multipliée par deux d’une génération à l’autre, le produit « capacité HBM × bande passante HBM » doit doubler à chaque génération.

L’optimisation logicielle ne résout pas l’équation : la demande en HBM est verrouillée sur une trajectoire exponentielle

Face à cette logique, l’objection la plus fréquente du marché est la suivante : l’optimisation logicielle ne pourrait-elle pas réduire la dépendance au HBM ? Sa réponse est que l’amélioration de l’efficacité logicielle et le progrès des spécifications matérielles sont deux dimensions totalement indépendantes et ne se substituent pas l’une à l’autre. C’est comme si, même avec une optimisation logicielle CPU parfaitement poussée, on ne pouvait pas empêcher Intel ou AMD d’avoir, à chaque génération, à sortir de meilleurs scores dans les tests standard ; sinon, le produit ne se vendrait pas.

La logique des GPU est identique : tant que la demande mondiale en token continue de s’étendre, la quête de débits plus élevés de token ne s’arrêtera pas, et les besoins d’amélioration des deux aspects du HBM ne s’arrêteront pas non plus.

Le point plus crucial est que la pression ne vient pas d’un appel de la conjoncture extérieure, mais d’une demande endogène côté offre. Tant que Nvidia doit vendre un GPU de prochaine génération, elle devra forcément faire pression sur SK Hynix, Samsung et Micron, en exigeant que chaque génération de HBM progresse à la fois en capacité et en bande passante. Car le plafond du HBM, c’est le plafond de performance des GPU.

En traçant sur le même graphique à double échelle (log-log) le débit des token des GPU de chaque génération de Nvidia, de A100 à Rubin Ultra, avec les valeurs correspondantes de « capacité HBM × bande passante HBM », le niveau d’adéquation des deux courbes sera surprenant. Ce n’est pas une coïncidence historique, mais une conséquence inévitable de l’optimisation système.

Adieu à la fatalité cyclique du HBM, la logique de tarification du marché reste à réévaluer

Au vu de la déduction architecturale ci-dessus, la différence de nature entre le HBM et le DRAM traditionnel est désormais claire. La mémoire traditionnelle est un « accessoire » de l’industrie des puces : la demande est peu porteuse, et dès que le calendrier d’augmentation de capacités dépasse le redressement de la demande, la baisse cyclique des prix arrive comme prévu.

Mais la demande en HBM est verrouillée, par la logique physique même de l’architecture d’inférence IA, sur une trajectoire de croissance exponentielle. Elle n’a aucun lien causal direct avec la chaleur et le froid du marché de l’IA, ni avec le cycle conjoncturel global de l’économie.

Bien sûr, le vrai problème n’est pas du côté de la demande, mais du côté de l’offre : SK Hynix, Samsung et Micron, ces trois principaux acteurs, sauront-ils, face à une demande solide, réprimer l’impulsion d’expansion aveugle répétée pendant des dizaines d’années, et éviter de replanter les graines d’un cycle de mal de l’offre excédentaire ? La réponse à cette question sera la variable clé pour savoir si le cycle de mémoire de ce tour pourra se prolonger durablement.

(Peut-on acheter quand les actions mémoire s’effondrent encore ? Un analyste de Samsung Securities : corrections en cycle plutôt que sommet du marché haussier)

Cet article brise le mythe de la cyclicité ! Une formule qui décompose la structure de la demande en HBM : pourquoi la mémoire ne ferait que continuer à monter ? Publié pour la première fois sur LienNews ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Un expert financier explique pourquoi le marché boursier va s’effondrer — et si la crypto pouvait plutôt rebondir ?

Un expert financier explique pourquoi le marché boursier va s’effondrer. Il détaille la manière dont la Fed pourrait réagir et comment mieux s’y prendre. Et si, à la place, une hausse des prix des cryptos se produisait ? Un expert financier renommé explique pourquoi le marché boursier va s’effondrer à un moment donné cette année,

CryptoNewsLandIl y a 22m

Le challenger de Nvidia, Cerebras, prévoit une introduction en bourse avec une valorisation de 40 milliards, et derrière cela reste TSMC en procédé 5 nm

Cerebras va être introduit en bourse sur le Nasdaq, avec une valorisation d’environ 40 milliards, une levée de fonds plafonnée à 4 milliards, au prix d’émission de 115 à 125 dollars. S’appuyant sur le processeur de niveau plaquette WSE, il se positionne comme une plateforme d’infrastructure pour l’IA, avec des clients incluant OpenAI et AWS, tandis que TSMC est le principal sous-traitant de fabrication. En 2025, les revenus s’élèveront à 510 millions mais l’entreprise enregistrera une perte, dépendant de quelques grands clients comme G42 et MBZUAI ; OpenAI déploiera une puissance de calcul à faible latence de 750 MW, et une collaboration est également prévue avec AWS Bedrock.

ChainNewsAbmediaIl y a 47m

Les yeux à trois cercles $1B : l’introduction en bourse à Hong Kong après l’approbation de la Chine

Le groupe Chaozhou Three-Circle Group a déposé une demande d’introduction à Hong Kong visant à lever jusqu’à 1 milliard de dollars américains après avoir obtenu l’approbation réglementaire en Chine, selon Reuters. Le fabricant de composants en céramique basé dans le Guangdong a déposé son projet de prospectus en décembre 2025 et prévoit d’affecter les fonds à

CryptoFrontierIl y a 52m

Cerebras prévoit une introduction en bourse (IPO) à $4B au Nasdaq, et démarre une tournée de présentation le 4 mai à 115 $ à 125 $ par action

Selon Reuters, le fabricant de puces IA Cerebras Systems a lancé son roadshow pour une introduction en bourse le 4 mai en vue d'une cotation au Nasdaq sous le ticker CBRS. La société prévoit de fixer le prix des actions entre 115 dollars US et 125 dollars US et pourrait lever jusqu’à US$4 milliard de dollars à une valorisation d’environ 40 milliards de dollars. Il s’agit de la deuxième

GateNewsIl y a 52m

Les entrées d’ETP crypto de WisdomTree atteignent $137M au T1

Les ETP crypto de WisdomTree ont enregistré $137M d’entrées au T1 2026, inversant les sorties de l’année précédente et signalant un regain d’intérêt des investisseurs. L’encours crypto (AUM) a atteint 1,8 milliard de dollars malgré les baisses du marché, tandis que les actifs totaux de la société ont progressé de plus de 30% d’une année sur l’autre. L’expansion produit et les efforts de tokenisation ont renforcé

CryptoFrontNewsIl y a 1h

Threads atteint 150 millions d'utilisateurs quotidiens ; Meta met en garde sur les revenus à court terme

Meta a annoncé, lors de son dernier appel aux résultats, que Threads a dépassé 150 millions d’utilisateurs actifs quotidiens et a étendu la publicité à plus de 200 pays, d’après les divulgations financières de l’entreprise. Toutefois, Meta a prévenu que Threads et le statut WhatsApp sont peu susceptibles de générer une valeur significative

CryptoFrontierIl y a 1h
Commentaire
0/400
Aucun commentaire