Em 25 de março, as ações de tecnologia dos Estados Unidos registraram ganhos generalizados, com o Índice Nasdaq 100 encerrando o dia em alta. No entanto, um grupo de ações contrariou a tendência e sofreu perdas:
SanDisk caiu 3,50%, Micron recuou 3,4%, Seagate teve queda de 2,59% e Western Digital perdeu 1,63%. Todo o setor de armazenamento parecia como se a energia tivesse sido cortada no meio de uma festa.
A razão foi um artigo de pesquisa — mais precisamente, o destaque oficial do Google Research sobre um novo estudo.
Para compreender o impacto, é essencial conhecer um conceito pouco discutido na infraestrutura de IA: KV Cache.
Ao interagir com um modelo de linguagem grande, ele não começa do zero a cada pergunta. Em vez disso, armazena todo o contexto da conversa na memória como “pares de chave-valor” — esse é o KV Cache, a memória de trabalho de curto prazo do modelo.
O problema é que o KV Cache cresce proporcionalmente ao tamanho da janela de contexto. Quando essa janela atinge a escala de milhões de tokens, a memória da GPU consumida pelo KV Cache pode até superar os próprios parâmetros do modelo. Para clusters de inferência que atendem muitos usuários ao mesmo tempo, isso se torna um gargalo real de infraestrutura e eleva os custos.
A versão original do artigo foi publicada no arXiv em abril de 2025 e será oficialmente publicada no ICLR 2026. O Google Research batizou o algoritmo de TurboQuant — um método de quantização sem perdas que comprime o KV Cache para 3 bits, reduzindo o uso de memória em pelo menos seis vezes. Não requer treinamento ou ajuste fino e funciona imediatamente.
A abordagem técnica tem dois passos principais:
Passo 1: PolarQuant. Em vez de usar o sistema de coordenadas cartesianas padrão para representar vetores, converte-os em coordenadas polares — compostas por um “raio” e um conjunto de “ângulos”. Isso simplifica fundamentalmente a geometria de espaços de alta dimensão, permitindo quantização subsequente com menor distorção.
Passo 2: QJL (Quantized Johnson-Lindenstrauss). Após o PolarQuant realizar a compressão principal, o TurboQuant utiliza uma transformação QJL de um bit para corrigir de forma imparcial o erro remanescente, garantindo estimativa precisa do produto interno — fundamental para o mecanismo de atenção do Transformer.
Os resultados: No benchmark LongBench, que abrange resposta a perguntas, geração de código e sumarização, TurboQuant igualou ou até superou o melhor baseline existente, o KIVI. Em tarefas de recuperação “agulha no palheiro”, obteve recall perfeito. No H100 da NVIDIA, a versão de 4 bits do TurboQuant acelerou operações de lógica de atenção em até 8x.
Os métodos tradicionais de quantização apresentam uma falha fundamental: cada bloco de dados comprimido exige armazenamento extra para “constantes de quantização”, que registram como descomprimir, adicionando 1–2 bits por valor. Embora pareça pouco, em contextos de milhões de tokens esses bits se acumulam rapidamente. O TurboQuant elimina completamente esse overhead por meio da rotação geométrica do PolarQuant e da correção residual de um bit do QJL.
As implicações são difíceis de ignorar: um modelo que antes precisava de oito H100s para atender a um contexto de milhões de tokens poderia, em teoria, fazê-lo com apenas dois. Provedores de inferência poderiam processar mais de seis vezes mais solicitações simultâneas de contexto longo com o mesmo hardware.
Isso mina diretamente a narrativa central do setor de armazenamento.
Nos últimos dois anos, Seagate, Western Digital e Micron se beneficiaram do boom de investimentos em IA por um motivo: À medida que modelos grandes “lembram” mais, a demanda por memória com janelas de contexto longas parece ilimitada, e espera-se uma explosão na demanda por armazenamento. As ações da Seagate dispararam mais de 210% em 2025, e a capacidade de produção para 2026 já estava vendida.
A chegada do TurboQuant desafia diretamente essa premissa.
O analista de tecnologia do Wells Fargo, Andrew Rocha, resumiu: “À medida que as janelas de contexto aumentam, os dados armazenados no KV Cache crescem de forma explosiva e a demanda por memória sobe. O TurboQuant está atacando diretamente essa curva de custos... Se for amplamente adotado, questiona fundamentalmente quanto de capacidade de memória realmente é necessária.”
Mas Rocha também enfatizou uma condição fundamental: SE.
O mercado está exagerando? Provavelmente sim — pelo menos em parte.
Primeiro, a manchete de “aceleração 8x” é enganosa. Diversos analistas apontaram que o ganho de velocidade de 8x foi medido em relação a sistemas antigos de 32 bits não quantizados, não aos sistemas já otimizados atualmente em uso. O ganho real de desempenho existe, mas não é tão dramático quanto sugerem as manchetes.
Segundo, o artigo testou apenas modelos pequenos. Todas as avaliações do TurboQuant usaram modelos com até 8 bilhões de parâmetros. A preocupação real dos fornecedores de armazenamento está nos modelos de 70 bilhões ou até 400 bilhões de parâmetros, onde o KV Cache se torna realmente massivo. O desempenho do TurboQuant nessas escalas ainda é desconhecido.
Terceiro, o Google não liberou nenhum código oficial. Até o momento, o TurboQuant não está disponível no vLLM, llama.cpp, Ollama ou em qualquer framework de inferência mainstream. Desenvolvedores da comunidade implementaram versões iniciais baseadas na matemática do artigo, e um replicador inicial observou que, se a correção de erro do QJL não for feita corretamente, a saída pode se tornar ilegível.
Ainda assim, isso não significa que as preocupações do mercado sejam infundadas.
Esse é o reflexo coletivo do mercado após o evento DeepSeek em 2025. Esse episódio ensinou uma lição dura: Quebras de eficiência algorítmica podem, instantaneamente, derrubar narrativas de hardware caro. Desde então, qualquer avanço de eficiência vindo de um grande laboratório de IA provoca um reflexo nas ações de hardware.
Além disso, esse sinal vem do Google Research — não de um laboratório universitário obscuro. O Google tem o poder de engenharia para transformar artigos em ferramentas de produção e é um dos maiores consumidores de inferência de IA do mundo. Uma vez que o TurboQuant seja implementado internamente, pode remodelar silenciosamente as estratégias de aquisição de servidores para Waymo, Gemini e Google Search.
Há um debate clássico aqui que vale considerar: Paradoxo de Jevons.
O economista William Jevons, do século XIX, observou que melhorias na eficiência das máquinas a vapor não reduziram o consumo de carvão na Grã-Bretanha — pelo contrário, aumentaram dramaticamente. Custos menores devido ao ganho de eficiência estimularam uma adoção muito mais ampla.
Defensores argumentam: Se o Google permitir que um modelo rode em 16 GB de VRAM, os desenvolvedores não vão parar por aí — vão usar os recursos liberados para rodar modelos seis vezes mais complexos, processar conjuntos de dados multimodais maiores e suportar contextos ainda mais longos. No fim, a eficiência do software desbloqueia uma demanda antes inacessível devido aos altos custos.
No entanto, esse contra-argumento depende de o mercado ter tempo para se adaptar e expandir. Durante o período em que o TurboQuant evolui de artigo para ferramenta de produção e depois para padrão da indústria, será que a demanda por hardware conseguirá crescer rápido o suficiente para preencher o “vazio” criado pela maior eficiência?
Ninguém sabe a resposta. O mercado está precificando essa incerteza.
Mais importante do que a volatilidade das ações de armazenamento é a tendência profunda revelada pelo TurboQuant.
O principal campo de batalha da corrida armamentista de IA está mudando de “escalar computação” para “maximizar eficiência”.
Se o TurboQuant provar seu desempenho em modelos de grande escala, pode impulsionar uma mudança fundamental: a inferência de contexto longo passaria de um luxo acessível apenas aos principais laboratórios para padrão da indústria.
Essa corrida por eficiência é onde o Google se destaca — desenvolvendo algoritmos de compressão matematicamente quase ideais, expandindo os limites da teoria da informação de Shannon, não apenas engenharia de força bruta. A taxa de distorção teórica do TurboQuant é apenas cerca de 2,7 vezes o limite inferior da teoria da informação.
Isso sugere que avanços semelhantes devem seguir. Marca a maturação de toda uma linha de pesquisa.
Para o setor de armazenamento, a questão mais realista não é “Isso vai afetar a demanda desta vez?”, mas: À medida que os custos de inferência em IA caem devido ao software, até onde o fosso do hardware pode permanecer?
A resposta, por enquanto: Ainda é amplo, mas não tão amplo que esses sinais possam ser ignorados.
Este artigo foi republicado de [TechFlow], com direitos autorais pertencentes ao autor original [TechFlow]. Caso tenha alguma preocupação sobre esta republicação, entre em contato com a equipe do Gate Learn, que irá tratar prontamente conforme os procedimentos relevantes.
Isenção de responsabilidade: As opiniões e pontos de vista expressos neste artigo são de responsabilidade exclusiva do autor e não constituem aconselhamento de investimento.
Outras versões deste artigo em diferentes idiomas foram traduzidas pela equipe Gate Learn. A menos que Gate seja especificamente referenciado, artigos traduzidos não podem ser copiados, distribuídos ou plagiados.





