2026-04-12 14:46:57

URGENTE: O Google revelou o TurboQuant, uma técnica que visa comprimir a memória de trabalho dos modelos de linguagem sem perda de informação.

Se chegar à produção como sugerem as pesquisas, poderá aliviar um dos principais obstáculos na IA atual: o custo e a escassez de memória necessária para lidar com contextos longos, agentes e cargas de trabalho de inferência massivas.
O TurboQuant pretende reduzir o uso de cache KV em até seis vezes e acelerar o processamento no chip em até oito vezes sem perda de dados.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

1 Curtidas