Un artículo que redujo las acciones de almacenamiento

2026-03-26 01:25:52

Autor: DeepChao TechFlow

El 25 de marzo, las acciones tecnológicas en Wall Street subieron en general, el índice Nasdaq 100 cerró en positivo, pero hubo un tipo de acciones que sangraron en contra de la tendencia:

SanDisk cayó un 3,50%, Micron bajó un 3,4%, Seagate cayó un 2,59%, Western Digital descendió un 1,63%. Todo el sector del almacenamiento pareció de repente haber sido desconectado en una fiesta.

El culpable fue un artículo académico, o más precisamente, la promoción oficial por parte de Google Research de un artículo.

¿En qué consiste exactamente ese artículo?

Para entender esto, primero hay que aclarar un concepto poco atendido en la infraestructura de IA: la Caché KV.

Cuando interactúas con un gran modelo de lenguaje, el modelo no empieza desde cero cada vez que entiendes tu pregunta. En lugar de eso, guarda el contexto de toda la conversación en memoria en un formato llamado “pares clave-valor” (Key-Value Pair), que es la Caché KV, la memoria de trabajo a corto plazo del modelo.

El problema es que el tamaño de la Caché KV crece proporcionalmente a la longitud de la ventana de contexto. Cuando la ventana alcanza millones de tokens, el consumo de memoria GPU por parte de la Caché KV puede incluso superar los pesos del propio modelo. Para un clúster de inferencia que atiende a muchos usuarios simultáneamente, esto representa un cuello de botella real en infraestructura, que día a día genera gastos exorbitantes.

La versión original de este artículo apareció por primera vez en arXiv en abril de 2025 y será presentado oficialmente en ICLR 2026. Google Research lo denominó TurboQuant, un algoritmo de cuantificación sin pérdida que comprime la Caché KV a solo 3 bits, reduciendo el uso de memoria en al menos 6 veces, sin necesidad de entrenamiento o ajuste fino, listo para usar desde el primer momento.

El camino técnico específico consta de dos pasos:

Primero, PolarQuant. Este método no usa el sistema de coordenadas cartesiano estándar para representar vectores, sino que los convierte a coordenadas polares —formadas por un “radio” y un conjunto de “ángulos”— lo que simplifica fundamentalmente la complejidad geométrica en espacios de alta dimensión, permitiendo que la cuantificación posterior tenga menor distorsión.

Luego, QJL (Johnson-Lindenstrauss Cuantizado). Tras la compresión principal con PolarQuant, TurboQuant aplica una transformación QJL que usa solo 1 bit para corregir de manera no sesgada los errores residuales, garantizando la precisión en la estimación del producto interno, lo cual es crucial para el correcto funcionamiento de la atención en Transformers.

El resultado: en la evaluación LongBench, que cubre tareas de preguntas y respuestas, generación de código y resumen, TurboQuant igualó o superó el rendimiento de la mejor línea base existente, KIVI; en tareas de recuperación “búsqueda de aguja en pajar”, logró una recuperación perfecta; en NVIDIA H100, TurboQuant de 4 bits aceleró las operaciones de atención en un factor de 8.

Los métodos tradicionales de cuantificación tienen un pecado original: cada vez que comprimen un bloque de datos, necesitan almacenar adicionalmente un “constante de cuantificación” para saber cómo descomprimirlo. Este metadato suele consumir entre 1 y 2 bits por valor, lo cual no parece mucho, pero en un contexto de millones de tokens, esos bits se acumulan a una velocidad desesperante. TurboQuant elimina por completo este gasto adicional mediante la rotación geométrica de PolarQuant y la corrección residual de 1 bit de QJL.

¿Por qué el mercado está en pánico?

La conclusión es tan directa que resulta difícil ignorarla: un modelo que requiere 8 GPUs H100 para atender un contexto de millones de tokens, en teoría, solo necesitaría 2 GPUs. Los proveedores de inferencia podrían manejar más de 6 veces más solicitudes de contexto largo en paralelo con el mismo hardware.

Esto golpea directamente la narrativa central del sector del almacenamiento.

En los últimos dos años, Seagate, Western Digital y Micron han sido elevados por la ola de capital en IA, con una lógica subyacente: los grandes modelos cada vez “recuerdan” más, y la ventana de contexto larga demanda memoria sin límite, lo que provocará un crecimiento explosivo en las necesidades de almacenamiento. En 2025, Seagate subió más del 210%, y su capacidad de producción para 2026 ya estaba completamente vendida.

La aparición de TurboQuant desafía directamente esa narrativa.

El analista de tecnología de Bank of America, Andrew Rocha, comentó de manera muy clara: “A medida que la ventana de contexto crece, el almacenamiento en la Caché KV se expande de forma explosiva, y la demanda de memoria aumenta en consecuencia. TurboQuant está atacando directamente esa curva de costos… Si se adopta ampliamente, hará cuestionar fundamentalmente cuánto de memoria realmente se necesita.”

Pero Rocha también usó una condición clave: “SI”.

¿Realmente vale la pena discutir esto?

¿La reacción del mercado ha sido exagerada? La respuesta probablemente sea: sí, un poco.

Primero, el problema del titular que promete “8 veces más rápido”. Varios analistas señalan que esa comparación de 8x se hizo entre la nueva tecnología y un sistema antiguo de 32 bits sin cuantificación, no con los sistemas ya optimizados en despliegues actuales. La mejora real existe, pero no es tan dramática como sugieren los titulares.

Segundo, el artículo solo probó modelos pequeños. Todas las evaluaciones de TurboQuant usaron modelos con un máximo de unos 8 mil millones de parámetros. Lo que realmente preocupa a los proveedores de almacenamiento son los modelos gigantes de 700 mil millones o 4 billones de parámetros, donde la Caché KV es verdaderamente astronómica. Cómo se comporta TurboQuant en esas escalas aún es una incógnita.

Tercero, Google todavía no ha publicado ningún código oficial. Hasta ahora, TurboQuant no está en vLLM, llama.cpp, Ollama ni en ningún marco de inferencia principal. Es decir, los desarrolladores de la comunidad han tenido que reproducirlo a partir de las derivaciones matemáticas del artículo. Un de los primeros en hacerlo aclaró que si el módulo de corrección de errores QJL no se implementa correctamente, la salida puede convertirse en un galimatías.

Pero esto no significa que las preocupaciones del mercado sean infundadas.

Es la memoria muscular colectiva que quedó tras el episodio DeepSeek en 2025. Esa vez, el mercado aprendió una lección dura: avances en eficiencia algorítmica pueden en una noche transformar por completo la narrativa del hardware costoso. Desde entonces, cualquier avance de eficiencia en un laboratorio de IA de élite dispara reflejos condicionados en el sector del hardware.

Además, esta señal proviene de Google Research, no de un laboratorio universitario desconocido. Esa empresa tiene la capacidad técnica suficiente para convertir un artículo en una herramienta de producción, y además, es uno de los mayores consumidores de inferencia de IA en el mundo. Una vez que TurboQuant se implemente internamente, la lógica de compra de servidores para Waymo, Gemini y Google Search cambiará silenciosamente.

El guion que se repite una y otra vez en la historia

Aquí hay un debate clásico que merece ser tomado en serio: la paradoja de Jevons.

El economista del siglo XIX, William Stanley Jevons, descubrió que la mejora en la eficiencia de las máquinas de vapor no redujo el consumo de carbón en Reino Unido, sino que en realidad lo aumentó significativamente, porque la mayor eficiencia redujo los costos de uso y estimuló un uso aún mayor.

La lógica de los defensores es: si Google logra que un modelo funcione en 16 GB de VRAM, los desarrolladores no se detendrán allí. Usarán la computación ahorrada para correr modelos 6 veces más complejos, procesar datos multimodales más grandes y soportar contextos más largos. La eficiencia del software desbloquea finalmente demandas que antes eran inaccesibles por su costo.

Pero esa refutación tiene un premisa: el mercado necesita tiempo para digerir y reexpandirse. En el período en que TurboQuant pase de ser un artículo académico a una herramienta de producción y de allí a un estándar de la industria, ¿podrá la expansión en demanda de hardware llenar rápidamente la brecha creada por la mejora en eficiencia?

Nadie lo sabe. El mercado está valorando esa incertidumbre.

El verdadero significado para la industria de IA

Más allá de las subidas y bajadas de las acciones del sector del almacenamiento, lo que realmente importa es la tendencia más profunda que revela TurboQuant.

El campo de la carrera armamentística en IA está migrando de “acumular potencia de cálculo” a “maximizar eficiencia”.

Si TurboQuant logra demostrar su rendimiento en modelos a gran escala, provocará un cambio radical: la inferencia con largos contextos dejará de ser un lujo solo accesible a los laboratorios de élite, y se convertirá en un estándar de la industria por defecto.

Y el punto clave en esta carrera por la eficiencia es precisamente el área en la que Google es más fuerte: algoritmos de compresión casi óptimos desde el punto de vista matemático, basados en los límites de la teoría de la información de Shannon, no en una acumulación de ingeniería brutal. La tasa de distorsión teórica de TurboQuant solo supera en aproximadamente un factor constante de 2,7 el límite inferior de la teoría de la información.

Esto significa que no será un único avance, sino que toda una línea de investigación está madurando.

Para la industria del almacenamiento, la pregunta más clara no es “¿esto afectará la demanda esta vez?”, sino: cuando la curva de costos de inferencia de IA siga bajando por el software, ¿qué tan profunda será la brecha que la protección del hardware podrá mantener?

La respuesta actual es: todavía muy amplia, pero no tanto como para ignorar estas señales.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.