Gate News повідомляє, 25 березня дослідницький інститут Google опублікував алгоритм квантового стиснення TurboQuant, який може зменшити обсяг кешу KV великих мовних моделей до 3 біт, зменшуючи використання пам’яті щонайменше у 6 разів, без необхідності тренування або доопрацювання та без втрати точності моделі. У режимі 4 біт швидкість обчислення уваги на GPU NVIDIA H100 у порівнянні з базовим 32-бітовим не квантованим режимом зросла до 8 разів. Команда дослідників підтвердила ефективність TurboQuant на довгих контекстних бенчмарках LongBench, Needle In A Haystack, ZeroSCROLLS, використовуючи моделі Gemma і Mistral, і досягла найкращих результатів у всіх тестах. Алгоритм складається з двох підалгоритмів: PolarQuant, який за допомогою перетворення у полярні координати усуває пам’ятні витрати традиційних методів квантування, та QJL, що коригує залишкову помилку всього за 1 біт. Дослідження очолювали Амір Зандієх з Google Research і віце-президент та Google Fellow Вахаб Міррокні у співпраці з KAIST (Республіка Корея) та Нью-Йоркським університетом, і воно буде опубліковане на ICLR 2026. Google зазначає, що одним із основних застосувань цієї технології є подолання вузьких місць у кеші KV моделей на кшталт Gemini.