Un article qui a fait chuter les actions de stockage

Auteur : DeepChao TechFlow

Le 25 mars, les actions technologiques américaines ont toutes progressé, le NASDAQ 100 étant en hausse, mais une catégorie de titres a connu une chute contre la tendance :

SanDisk a reculé de 3,50 %, Micron de 3,4 %, Seagate de 2,59 %, Western Digital de 1,63 %. Tout le secteur du stockage semble soudainement coupé du courant lors d’une fête.

Le coupable est un article de recherche, ou plus précisément, une promotion officielle par Google Research d’un papier.

Que fait exactement cet article ?

Pour comprendre cela, il faut d’abord saisir un concept peu connu dans l’infrastructure de l’IA : le KV Cache.

Lorsque vous dialoguez avec un grand modèle de langage, celui-ci ne repart pas de zéro à chaque question. Il stocke le contexte de toute la conversation sous forme de “paires clé-valeur” (Key-Value Pair) dans la mémoire, c’est le KV Cache, la mémoire de travail à court terme du modèle.

Le problème, c’est que la taille du KV Cache croît proportionnellement à la longueur de la fenêtre de contexte. Lorsqu’elle atteint des millions de tokens, la consommation de mémoire GPU par le KV Cache peut même dépasser celle des poids du modèle. Pour un cluster d’inférence servant de nombreux utilisateurs simultanément, c’est une véritable limite infrastructurelle, un goulet d’étranglement quotidien en coûts.

La version originale de cet article est apparue sur arXiv en avril 2025, et sera publiée officiellement à l’ICLR 2026. Google Research l’a nommé TurboQuant, un algorithme de quantification sans perte qui compresse le KV Cache à 3 bits, réduisant la mémoire d’au moins 6 fois, sans entraînement ni fine-tuning, prêt à l’emploi.

La méthode technique se déploie en deux étapes :

Première étape, PolarQuant. Il ne représente pas les vecteurs en coordonnées cartésiennes classiques, mais en coordonnées polaires — avec “rayon” et “angles” — ce qui simplifie fondamentalement la géométrie de l’espace haute dimension, permettant une quantification ultérieure avec moins de distorsion.

Deuxième étape, QJL (Quantized Johnson-Lindenstrauss). Après la compression principale par PolarQuant, TurboQuant utilise une transformation QJL à 1 bit pour corriger sans biais les erreurs résiduelles, garantissant la précision de l’estimation du produit scalaire — essentiel au bon fonctionnement de l’attention dans les Transformers.

Résultat : sur le benchmark LongBench, qui couvre des tâches de question-réponse, génération de code et résumé, TurboQuant égalise ou dépasse la performance de la meilleure baseline existante, KIVI ; il atteint une recall parfaite sur la recherche “à la recherche d’une aiguille dans une botte de foin” ; sur NVIDIA H100, TurboQuant à 4 bits accélère le calcul de l’attention par un facteur 8.

Les méthodes de quantification classiques ont un défaut : chaque compression nécessite de stocker un “constante de quantification” pour décompresser, ce qui représente un surcoût en métadonnées, souvent de 1 à 2 bits par valeur. Cela peut sembler peu, mais dans un contexte de millions de tokens, ces bits s’accumulent à une vitesse désespérée. TurboQuant élimine cet overhead grâce à la rotation géométrique de PolarQuant et à la correction d’erreur à 1 bit de QJL.

Pourquoi le marché panique-t-il ?

La conclusion est claire : un modèle nécessitant 8 GPU H100 pour gérer un contexte d’un million de tokens pourrait théoriquement se contenter de 2 GPU. Les fournisseurs d’inférence pourraient ainsi traiter plus de 6 fois plus de requêtes simultanées avec le même matériel.

C’est une attaque directe à la narration centrale du secteur du stockage.

Ces deux dernières années, Seagate, Western Digital, Micron ont été portés aux nues par la hype de l’IA, avec une logique simple : les grands modèles peuvent “se souvenir” de plus en plus, leur fenêtre de contexte n’a pas de limite, et la demande en stockage explose. En 2025, Seagate a gagné plus de 210 %, sa capacité de production étant déjà épuisée pour 2026.

L’émergence de TurboQuant remet en cause cette logique de fond.

Andrew Rocha, analyste technologique chez Wells Fargo, commente : “Avec l’augmentation de la taille de la fenêtre de contexte, la croissance du stockage dans le KV Cache explose, la demande en mémoire grimpe. TurboQuant attaque directement cette courbe de coût… Si adopté massivement, cela remet en question la nécessité d’une grande capacité mémoire.”

Mais il pose une condition : le “SI”.

Ce qui rend cette discussion intéressante

Le marché est-il trop alarmiste ? Probablement un peu.

D’abord, le titre de “8 fois plus rapide” est sensationnaliste. Plusieurs analystes soulignent que cette amélioration est comparée à un système non quantifié en 32 bits, et non à des systèmes déjà optimisés dans le déploiement actuel. La vraie amélioration existe, mais pas aussi spectaculaire que le titre le laisse entendre.

Ensuite, la recherche n’a testé que de petits modèles. Toutes les évaluations de TurboQuant ont été faites sur des modèles d’environ 8 milliards de paramètres au maximum. Ce qui inquiète réellement les fournisseurs de stockage, ce sont les modèles de 700 milliards ou 4 000 milliards de paramètres, où le KV Cache devient astronomique. La performance de TurboQuant à ces échelles reste inconnue.

Troisièmement, Google n’a pas encore publié de code officiel. À ce jour, TurboQuant n’est pas intégré dans vLLM, llama.cpp, Ollama ou d’autres frameworks d’inférence populaires. Ce sont des développeurs communautaires qui ont reproduit une version précoce à partir des mathématiques du papier. Un de ces reproduiseurs a explicitement averti que si la correction d’erreur QJL est mal implémentée, le résultat peut devenir du charabia.

Mais cela ne signifie pas que l’inquiétude du marché est infondée.

C’est la mémoire musculaire collective laissée par l’épisode DeepSeek en 2025. Cet épisode a enseigné une leçon dure : une avancée algorithmique en efficacité peut, du jour au lendemain, faire disparaître la narration coûteuse du matériel. Depuis, toute avancée d’un laboratoire de premier plan en efficacité provoque une réaction réflexe dans le secteur hardware.

De plus, cette fois, le signal vient de Google Research, pas d’un laboratoire universitaire obscur. La société a la capacité de transformer ses recherches en outils de production, et elle est aussi l’un des plus grands consommateurs d’inférence IA au monde. Si TurboQuant est adopté en interne, cela pourrait changer discrètement la logique d’achat de Waymo, Gemini, Google Search.

Le scénario classique se répète

Il existe un débat classique à prendre au sérieux : le paradoxe de Jevons.

Au XIXe siècle, l’économiste Jevons a découvert que l’amélioration de l’efficacité de la machine à vapeur n’a pas réduit la consommation de charbon en Grande-Bretagne, mais l’a considérablement augmentée — car l’efficacité réduisait le coût d’utilisation, stimulant une utilisation plus large.

Les partisans argumentent : si Google permet à un modèle de fonctionner avec 16 Go de VRAM, les développeurs ne s’arrêteront pas là. Ils utiliseront l’économie de calcul pour faire tourner des modèles 6 fois plus complexes, traiter des données multimodales plus volumineuses, supporter des contextes plus longs. L’efficacité logicielle débloquera finalement des besoins jusque-là inaccessibles à cause du coût.

Mais cette réponse suppose que le marché a le temps d’assimiler et de réexpanser. Pendant la période où TurboQuant passe de recherche à outil industriel, puis à norme, la croissance des besoins matériels pourra-t-elle combler rapidement le “vide” créé par l’efficacité ?

Personne ne le sait. Le marché en intègre l’incertitude dans ses prix.

La véritable portée pour l’industrie de l’IA

Plus que la hausse ou la baisse des actions du stockage, c’est une tendance plus profonde que TurboQuant révèle.

La course à l’armement IA migre du “pile de puissance” vers “l’efficacité extrême”.

Si TurboQuant prouve ses performances sur de grands modèles, cela entraînera une transformation radicale : la capacité à faire du raisonnement sur de longs contextes, qui était jusqu’ici un luxe réservé aux laboratoires de pointe, deviendra la norme de l’industrie.

Et cette course à l’efficacité est précisément le domaine où Google excelle, avec des algorithmes de compression presque optimaux en théorie, basés sur la limite de l’information de Shannon, plutôt que sur une accumulation brute d’ingénierie. La distorsion théorique de TurboQuant n’est qu’environ 2,7 fois supérieure à la limite inférieure de l’information.

Cela signifie que d’autres percées similaires ne sont pas impossibles. Elles représentent une voie de recherche en pleine maturation.

Pour le secteur du stockage, la question la plus lucide n’est peut-être pas “cela va-t-il réduire la demande ?”, mais “jusqu’où peut-on continuer à réduire le coût de l’inférence IA par logiciel, et jusqu’où la barrière matérielle pourra-t-elle résister ?”

La réponse actuelle : encore très large, mais pas au point d’ignorer ces signaux.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler