Google publie l’algorithme de compression TurboQuant sans entraînement, affirmant pouvoir réduire la demande en mémoire AI d’au moins 6 fois ; après l’annonce, les actions mémoire ont toutes plongé, mais les analystes ont des avis divergents.
(Contexte : Google prévoit de migrer vers la cryptographie quantique d’ici 2029, six ans avant l’objectif gouvernemental, l’industrie de la cryptographie doit suivre)
(Informations complémentaires : Wall Street Journal : Trump envisage de faire entrer Zuckenberg, Huang Renxun et Ellison dans le PCAST pour former la « équipe nationale d’IA » américaine)
Un nouvel algorithme qui fait plonger les actions du secteur mémoire ? Google Research a officiellement publié le 25 l’algorithme TurboQuant, affirmant qu’il peut quantifier le cache KV des grands modèles de langage (LLM) à seulement 3 bits, sans perte de précision du modèle, et réduire la consommation de mémoire d’au moins 6 fois.
Après l’annonce, le géant de la mémoire Micron a brièvement chuté de 6,1 % lors de la séance, clôturant à 382,09 dollars, un plus bas en trois semaines. Par ailleurs, SanDisk a chuté de 3,5 %, Seagate de 2,59 %, Western Digital de 1,63 %, entraînant une chute généralisée du secteur mémoire.
Les marchés asiatiques ont également subi la pression aujourd’hui : Samsung Electronics a ouvert en baisse de 3,6 %, SK Hynix de 4,5 %. La logique des investisseurs est simple : si les modèles d’IA n’ont plus besoin autant de mémoire, le pouvoir de fixation des prix, soutenu récemment par la pénurie de composants, pourrait s’effondrer.
Le cache KV (Key-Value Cache) est le mécanisme central permettant aux LLM de « se souvenir » des données traitées, stockant les informations d’attention précédentes pour éviter de recalculer à chaque génération de token. Mais avec l’extension continue de la fenêtre contextuelle, le cache KV devient un goulot d’étranglement mémoire.
TurboQuant cible précisément ce problème. Google indique que les méthodes traditionnelles de quantification vectorielle génèrent un surcoût d’environ 1 à 2 bits par valeur en mémoire, mais TurboQuant élimine complètement cette charge grâce à un processus en deux étapes :
Première étape, utilise la méthode PolarQuant pour faire tourner les vecteurs de données, permettant une compression de haute qualité.
Deuxième étape, applique l’algorithme Quantized Johnson-Lindenstrauss pour éliminer les erreurs résiduelles.
Dans les tests de référence sur GPU H100 de Nvidia, TurboQuant en 4 bits offre une performance 8 fois supérieure à celle des clés non quantifiées en 32 bits lors du calcul des scores d’attention, tout en compressant la mémoire cache KV d’au moins 6 fois.
Plus important encore, cet algorithme ne nécessite aucun entraînement ni ajustement, avec un coût supplémentaire très faible, ce qui le rend directement déployable en inference et dans les systèmes de recherche vectorielle à grande échelle. Selon les responsables, le papier associé sera présenté lors de la conférence « ICLR 2026 » en avril.
Cependant, tout le monde ne partage pas la vision d’une « fin de la mémoire ».
Certains analystes évoquent le paradoxe de Jevons : lorsque la technologie réduit le coût d’utilisation des ressources, la demande globale peut en réalité augmenter car ces ressources deviennent plus accessibles. Les partisans pensent que si TurboQuant peut réellement réduire considérablement la barrière à l’inférence IA, cela accélérera la diffusion des modèles IA, entraînant une demande accrue en mémoire, et non une réduction.
L’analyste de Lynx Equity Strategies a même déclaré dans un rapport : « La méthode décrite par Google ne réduira presque pas la demande en mémoire et en mémoire flash dans les 3 à 5 prochaines années, car l’offre reste extrêmement limitée. » Par conséquent, l’institution maintient l’objectif de 700 dollars pour Micron.