Google TurboQuant: Quantização KV de 3 bits sem perda de precisão, inferência até 8 vezes mais rápida

BlockBeatNews

De acordo com a monitorização da 1M AI News, o Google Research lançou o algoritmo de compressão quântica TurboQuant, que consegue comprimir o cache KV de grandes modelos de linguagem para 3 bits, reduzindo o uso de memória pelo menos 6 vezes, sem necessidade de treino ou ajuste fino, sem perder precisão do modelo. No modo de 4 bits, a velocidade de cálculo de atenção na GPU Nvidia H100 é até 8 vezes superior à linha de base de 32 bits não quantificados.

A equipa de pesquisa validou o TurboQuant em benchmarks de contexto longo como LongBench, Needle In A Haystack, ZeroSCROLLS, usando os modelos Gemma e Mistral, alcançando desempenho ótimo em todos os testes. O algoritmo é composto por dois subalgoritmos: PolarQuant, que elimina o overhead de memória das quantizações tradicionais através de transformação polar, e QJL, que corrige o erro residual com apenas 1 bit.

A pesquisa foi liderada por Amir Zandieh do Google Research e pelo vice-presidente e Google Fellow Vahab Mirrokni, em colaboração com o KAIST da Coreia do Sul e a Universidade de Nova York, e será publicada na ICLR 2026. O Google afirmou que uma das principais aplicações desta tecnologia é resolver o gargalo do cache KV em modelos como o Gemini.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário