В статье анализируются ограничения сравнений с эталонными показателями, масштаб моделей и инженерная реализация. В ней рассматриваются эффект DeepSeek efficiency shock и парадокс Джевонса, чтобы показать, как инновации в эффективности одновременно снижают краткосрочный спрос на оборудование и создают более значительные долгосрочные перспективы для расширения применения.

25 марта американские технологические акции показали широкий рост, индекс Nasdaq 100 закрылся в плюсе. Однако бумаги сектора места хранения выделились на общем фоне и понесли потери:

SanDisk подешевела на 3,50%, Micron — на 3,4%, Seagate снизилась на 2,59%, Western Digital — на 1,63%. Весь сектор места хранения выглядел так, словно кто-то выключил свет посреди вечеринки.

Причиной стал исследовательский доклад — точнее, официальный анонс нового исследования от Google Research.

Что же на самом деле сделала эта работа?

Чтобы понять значимость, важно разобраться в редко обсуждаемой концепции инфраструктуры ИИ: KV Cache.

Когда вы работаете с большой языковой моделью, она не начинает с нуля при каждом вопросе. Вместо этого она хранит весь контекст диалога в памяти в виде «пар ключ-значение» — это и есть KV Cache, краткосрочная рабочая память модели.

Проблема в том, что KV Cache растёт пропорционально длине окна контекста. Когда окно контекста достигает масштаба миллиона токенов, объём памяти GPU, занимаемый KV Cache, может даже превышать параметры самой модели. Для кластеров инференса, обслуживающих множество пользователей одновременно, это становится реальным ежедневным узким местом инфраструктуры и увеличивает издержки.

Оригинальная версия работы появилась на arXiv в апреле 2025 года и будет официально опубликована на ICLR 2026. Google Research назвала алгоритм TurboQuant — это без потерь метод квантизации, который сжимает KV Cache до 3 бит, снижая использование памяти минимум в шесть раз. Не требует обучения или донастройки, работает «из коробки».

Технический подход состоит из двух основных этапов:

Шаг 1: PolarQuant. Вместо стандартной декартовой системы координат для представления векторов используется перевод в полярные координаты — радиус и набор углов. Это фундаментально упрощает геометрию пространства высокой размерности, позволяя далее производить квантизацию с меньшими искажениями.

Шаг 2: QJL (Quantized Johnson-Lindenstrauss). После основной компрессии с помощью PolarQuant TurboQuant применяет одноразрядное преобразование QJL для несмещённой коррекции остаточной ошибки, что обеспечивает точную оценку скалярного произведения — критически важную для механизма внимания в Transformer.

Результаты: на бенчмарке LongBench, включающем ответы на вопросы, генерацию кода и суммаризацию, TurboQuant сравнялся или даже превзошёл лучший существующий базовый метод KIVI. В задачах поиска «иголки в стоге сена» достигнута идеальная полнота. На NVIDIA H100 4-битный TurboQuant ускорил операции логики внимания до 8 раз.

У традиционных методов квантизации есть фундаментальный недостаток: каждый сжатый блок данных требует дополнительного места для хранения «констант квантизации» для последующей декомпрессии, что добавляет 1–2 бита на каждое значение. Хотя это кажется незначительным, при миллионных объёмах токенов эти биты быстро накапливаются. TurboQuant полностью устраняет эти накладные расходы за счёт геометрического поворота в PolarQuant и одноразрядной коррекции остатков в QJL.

Почему рынок запаниковал?

Игнорировать последствия сложно: модель, которой раньше требовалось восемь H100 для обслуживания окна в миллион токенов, теоретически сможет обойтись всего двумя. Провайдеры инференса смогут обрабатывать более чем в шесть раз больше одновременных длинных запросов на том же оборудовании.

Это напрямую подрывает основную историю сектора места хранения.

За последние два года Seagate, Western Digital и Micron выигрывали от бума инвестиций в ИИ по одной причине: по мере того, как большие модели «запоминают» больше, потребность в памяти с длинным окном контекста кажется безграничной, и ожидается взрывной рост спроса на место хранения. Акции Seagate выросли более чем на 210% в 2025 году, а производственные мощности на 2026 год уже были распроданы.

Появление TurboQuant напрямую ставит это под сомнение.

Технологический аналитик Wells Fargo Эндрю Роча выразился кратко: «По мере увеличения окон контекста данные в KV Cache растут взрывными темпами, а спрос на память растёт. TurboQuant атакует эту кривую издержек напрямую… При широком внедрении это фундаментально ставит вопрос о том, какое количество памяти действительно необходимо».

Но Роча также подчеркнул важное условие: ЕСЛИ.

Что действительно стоит обсуждать?

Рынок реагирует чрезмерно? Скорее всего, да — по крайней мере частично.

Во-первых, заголовок про “ускорение в 8 раз” вводит в заблуждение. Несколько аналитиков отметили, что ускорение в 8 раз измерялось по сравнению со старыми 32-битными неквантизованными системами, а не с уже оптимизированными решениями, которые используются сейчас. Реальный прирост производительности есть, но не настолько драматичный, как утверждают заголовки.

Во-вторых, работа тестировалась только на малых моделях. Все оценки TurboQuant проводились на моделях до 8 миллиардов параметров. Основная проблема для поставщиков места хранения возникает на моделях в 70 миллиардов или даже 400 миллиардов параметров, где KV Cache становится действительно огромным. Как поведёт себя TurboQuant на этих масштабах — пока неизвестно.

В-третьих, Google не выпустила официальный код. На данный момент TurboQuant отсутствует во vLLM, llama.cpp, Ollama и других популярных инференс-фреймворках. Разработчики из сообщества реализовали ранние версии на основе математического описания из статьи, и один из первых повторителей отметил, что при некорректной коррекции ошибки QJL результат может быть нечитаемым.

Тем не менее, это не значит, что опасения рынка беспочвенны.

Это коллективная «мышечная память» рынка после события DeepSeek в 2025 году. Тогда все получили жёсткий урок: прорывы в алгоритмической эффективности могут мгновенно обесценить дорогие аппаратные решения. С тех пор любой прорыв в эффективности от ведущей ИИ-лаборатории вызывает рефлекторную реакцию акций производителей оборудования.

Кроме того, сигнал исходит от Google Research, а не от малоизвестной университетской лаборатории. У Google есть ресурсы для превращения научных работ в рабочие инструменты, и сама компания — один из крупнейших мировых потребителей инференса ИИ. Как только TurboQuant будет внедрён внутри компании, он может незаметно изменить стратегии закупок серверов для Waymo, Gemini и Google Search.

Классический сценарий повторяется

Здесь стоит вспомнить классическую дискуссию — Парадокс Джевонса.

Экономист XIX века Уильям Джевонс заметил, что рост эффективности паровых машин не снизил потребление угля в Британии, а наоборот, привёл к его резкому увеличению. Снижение издержек благодаря эффективности стимулировало гораздо более широкое использование.

Сторонники этой точки зрения утверждают: если Google позволит запускать модель на 16 ГБ видеопамяти, разработчики не остановятся на этом — они используют освободившиеся ресурсы для запуска моделей в шесть раз сложнее, обработки больших мультимодальных датасетов и поддержки ещё более длинных контекстов. В итоге программная эффективность открывает спрос, который раньше был недостижим из-за высокой стоимости.

Однако этот контраргумент работает только если у рынка есть время адаптироваться и расшириться. За тот период, когда TurboQuant пройдёт путь от статьи до рабочего инструмента и отраслевого стандарта, успеет ли спрос на оборудование вырасти настолько, чтобы заполнить «провал» от повышения эффективности?

Ответа нет. Рынок закладывает эту неопределённость в цену.

Что это значит для индустрии ИИ

Гораздо важнее волатильности акций места хранения — более глубокая тенденция, которую выявил TurboQuant.

Главная линия противостояния в гонке ИИ смещается от «масштабирования вычислений» к «максимизации эффективности».

Если TurboQuant подтвердит свою производительность на крупных моделях, это может привести к фундаментальному сдвигу: длинный контекст инференса станет стандартом отрасли, а не роскошью, доступной только топовым лабораториям.

Это соревнование в эффективности — сильная сторона Google: разработка математически близких к оптимальным алгоритмов сжатия, работа на грани теории информации Шеннона, а не грубая инженерия. Теоретический коэффициент искажения TurboQuant составляет всего около 2,7 от информационно-теоретической нижней границы.

Это говорит о высокой вероятности появления аналогичных прорывов. Это признак зрелости целого исследовательского направления.

Для индустрии места хранения главный вопрос уже не «повлияет ли это на спрос сейчас?», а: если издержки инференса ИИ продолжают снижаться за счёт софта, насколько широкой останется оборонительная позиция аппаратных решений?

Пока ответ таков: она всё ещё широка, но уже недостаточно, чтобы игнорировать подобные сигналы.

Дисклеймер:

Эта статья перепечатана с сайта [TechFlow], авторские права принадлежат первоисточнику [TechFlow]. Если у вас есть вопросы по поводу перепечатки, пожалуйста, свяжитесь с командой Gate Learn, которая оперативно решит вопрос в соответствии с действующими процедурами.
Дисклеймер: Мнения и взгляды, выраженные в данной статье, принадлежат исключительно автору и не являются инвестиционной рекомендацией.
Переводы данной статьи на другие языки выполнены командой Gate Learn. Если не указано иное, статьи-переводы не могут быть скопированы, распространены или плагиатированы без специального упоминания Gate.