2026-03-27 05:02:16

A Google publicou um artigo chamado TurboQuant, e em 24 horas a comunidade já o tinha adaptado para o llama.cpp

O que fez o TurboQuant? Comprimindo o cache KV de grandes modelos para 3 bits, o uso de memória foi reduzido em 6 vezes, e a velocidade de inferência no H100 aumentou 8 vezes
O mais importante é — não é necessário re-treinar, nem fazer fine-tuning, nem perder precisão. Essa é uma das razões pelas quais as ações de chips despencaram.
Samsung, SK Hynix caíram mais de 6% em Seul, Micron caiu 6,9% nas ações dos EUA.
O medo do mercado é — se cada modelo puder usar 6 vezes menos memória, a demanda por HBM não será afetada?
Mas acho que o mercado reagiu exageradamente. A razão é simples. A memória economizada não ficará ociosa. Um cache KV menor significa que a mesma placa pode rodar um contexto maior, com mais requisições simultâneas. A demanda não vai diminuir, apenas será realocada.
Isso já aconteceu várias vezes na história da tecnologia — CPUs ficaram mais rápidas, o software consumiu toda a margem de desempenho. Aumentou a largura de banda, o streaming de vídeo consumiu toda a largura. A memória ficou mais eficiente, os modelos se tornaram maiores e mais vorazes.
A discussão #20969 do llama.cpp já possui uma implementação CPU (pura em C, sem dependências) e um kernel CUDA.
Alguém conseguiu rodar no Apple Silicon usando Metal. Isso significa que a barreira para rodar modelos localmente caiu mais um nível.
TurboQuant, a curto prazo, traz um sentimento negativo para as ações de chips, mas a médio prazo representa um benefício de eficiência para toda a indústria de IA. Quem roda modelos localmente lucra — o mesmo Mac pode acomodar modelos maiores. As empresas de chips não precisam se preocupar — a demanda não vai desaparecer, apenas será utilizada de forma mais eficiente.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.