Статья о бумаге, которая снизила акции хранилища

(或更自然的表达：)

Научная работа обвалила акции компании хранения данных

DeepFlowTech · 2026-03-26T01:25:52+00:00

Автор: Deep Tide TechFlow25 марта акции технологического сектора США выросли в цене, индекс Nasdaq 100 показал положительную динамику, но один класс акций кровоточил в обратном направлении:SanDisk упал на 3,50%, Micron упал на 3,4%, Seagate упал на 2,59%, Western Digital упал на 1,63%. Весь сектор хранения данных был как на вечеринке, когда кто-то внезапно отключил электричество.Преступник — это научная статья, или точнее, официальное продвижение Google Research научной статьи.Что именно сделала эта статьяЧтобы понять это, нужно сначала разобраться с одной концепцией в инфраструктуре ИИ, которая редко привлекает внимание общественности: KV Cache.Когда вы общаетесь с большой языковой моделью, модель не начинает каждый раз понимать ваш вопрос с нуля. Она сохраняет контекст всего диалога в виде так называемых "пар ключ-значение" (Key-Value Pair).

DeepFlowTech

2026-03-26 01:25:52

Автор: DeepChao TechFlow

25 марта акции технологического сектора США выросли в цене, индекс Nasdaq 100 поднялся в плюсовую зону, но есть один тип акций, которые идут против тренда и теряют в цене:

SanDisk упала на 3,50%, Micron — на 3,4%, Seagate — на 2,59%, Western Digital — на 1,63%. Весь сектор хранения данных словно внезапно отключили электричество на вечеринке.

Виновником стала статья, или, точнее, официальное продвижение статьи компанией Google Research.

Что именно сделала эта статья

Чтобы понять суть, нужно сначала разобраться с одним редко освещаемым понятием в инфраструктуре ИИ: KV Cache.

Когда вы общаетесь с крупной языковой моделью, она не начинает с нуля каждый раз, когда вы задаете вопрос. Она хранит весь контекст диалога в памяти в виде так называемых “ключ-значение” (Key-Value Pair), и это называется KV Cache — краткосрочная рабочая память модели.

Проблема в том, что размер KV Cache растет пропорционально длине окна контекста. Когда окно достигает миллиона токенов, объем памяти GPU, необходимый для KV Cache, может превысить веса самой модели. Для inference-кластера, обслуживающего множество пользователей одновременно, это становится реальной инфраструктурной проблемой, которая ежедневно стоит денег.

Первоначальная версия этой статьи появилась на arXiv в апреле 2025 года и будет официально опубликована на ICLR 2026. Google Research назвала её TurboQuant — алгоритм без потерь, который сжимает KV Cache до 3 бит, сокращая использование памяти минимум в 6 раз, без необходимости обучения или дообучения, сразу после распаковки.

Конкретный технический путь включает два шага:

Первый — PolarQuant. Он не использует стандартную декартову систему координат для представления векторов, а преобразует их в полярные координаты — состоящие из “радиуса” и набора “углов” — что кардинально упрощает геометрию в высоких измерениях и позволяет выполнять последующую квантование с меньшими искажениями.

Второй — QJL (Quantized Johnson-Lindenstrauss). После основной компрессии PolarQuant TurboQuant использует преобразование QJL, которое занимает всего 1 бит, для безсмещенной коррекции остаточной ошибки, обеспечивая точность оценки скалярных произведений — что критически важно для правильной работы механизма внимания в трансформерах.

Результат: в бенчмарке LongBench, включающем задачи вопрос-ответ, генерации кода и суммирования, TurboQuant достигает результатов, сравнимых или превосходящих лучшие существующие решения, такие как KIVI; в задачах поиска “иголки в стоге сена” достигается идеальный recall; на NVIDIA H100 ускорение логики внимания при 4-битной квантовании достигает 8-кратного.

Классические методы квантования имеют один изначальный недостаток: при сжатии каждого блока данных необходимо хранить дополнительные “константы квантования” для восстановления исходных значений, что увеличивает метаданные примерно на 1-2 бита на число. В масштабах миллиона токенов эти биты накапливаются с поразительной скоростью. TurboQuant устраняет этот дополнительный расход за счет геометрического вращения PolarQuant и 1-битной коррекции остаточной ошибки QJL.

Почему рынок в панике?

Прямой вывод очень очевиден: модель, которая требует 8 блоков H100 для обработки миллиона токенов контекста, теоретически может работать всего на 2 блоках. Провайдеры inference-сервисов смогут одновременно обрабатывать более чем в 6 раз больше длинных запросов с теми же аппаратными ресурсами.

Это удар по основной нарративу сектора хранения данных.

За последние два года Seagate, Western Digital и Micron были вознесены на пьедестал благодаря AI-капиталу, потому что в основе лежит один принцип: крупные модели все больше “запоминают”, их длинное окно контекста требует все больше памяти, и потребность в хранении данных будет расти экспоненциально. Seagate в 2025 году выросла более чем на 210%, а её производственные мощности к 2026 году уже полностью распроданы.

Появление TurboQuant напрямую бросает вызов этому нарративу.

Аналитик по технологиям из Wells Fargo, Эндрю Роча, дал очень прямой комментарий: “По мере увеличения окна контекста объем данных в KV Cache растет взрывными темпами, и потребность в памяти также увеличивается. TurboQuant напрямую атакует эту кривую затрат… Если его широко внедрят, это поставит под сомнение необходимость в таком объеме памяти.”

Но Роча добавил важное условие: IF.

Что действительно стоит обсуждать

Может ли реакция рынка быть чрезмерной? Вероятно, да.

Во-первых, проблема “восемикратного ускорения” — это заголовочный трюк. Многие аналитики отмечают, что это сравнение сделано между новой технологией и старой 32-битной несжатой системой, а не с уже оптимизированными системами, используемыми в реальных продуктах. Реальный прирост есть, но он не такой драматичный, как намекает заголовок.

Во-вторых, статья протестирована только на небольших моделях. Все оценки TurboQuant основаны на моделях с примерно 8 миллиардами параметров. Реальные крупные модели с 70 или 400 миллиардами параметров — это совсем другое дело, и там объем KV Cache — это уже астрономические цифры. Пока неизвестно, как TurboQuant покажет себя на таких масштабах.

Третье — Google пока не выпустила официальный код. На сегодняшний день TurboQuant не представлен в vLLM, llama.cpp, Ollama или других популярных inference-фреймворках. Его реализовали самостоятельно разработчики сообщества, и один из них отметил, что если модуль коррекции QJL реализовать неправильно, результат может превратиться в “мусор”.

Но это не означает, что опасения рынка безосновательны.

Это отголоски события 2025 года — DeepSeek. Тогда рынок получил жесткий урок: прорывы в алгоритмах могут в один момент полностью изменить нарратив о дорогом железе. После этого любой прорыв в эффективности от ведущих лабораторий вызывает автоматическую реакцию у аппаратных компаний.

И сейчас сигнал идет от Google Research — не от неизвестной университетской лаборатории, а от компании с мощной инженерной командой, способной превращать научные статьи в рабочие инструменты, и которая сама является одним из крупнейших потребителей AI inference. Если TurboQuant внедрится внутри компании, это изменит закупочную стратегию Waymo, Gemini, Google Search.

Повторяющийся сценарий

Здесь есть классический спор, который стоит принять всерьез: парадокс Джевонса.

В 19 веке экономист Джевонс обнаружил, что повышение эффективности паровой машины не уменьшает потребление угля в Великобритании, а наоборот — увеличивает его, потому что снижение затрат стимулирует более масштабное использование.

Поддерживающие говорят: если Google сделает так, чтобы модель могла работать на 16 ГБ видеопамяти, разработчики не остановятся. Они используют сэкономленные ресурсы для запуска моделей в 6 раз сложнее, обрабатывают более крупные мультимодальные данные, поддерживают более длинные контексты. В итоге эффективность программного обеспечения раскрывает те потребности, которые раньше были недоступны из-за высокой стоимости.

Но у этого есть условие: рынку нужно время, чтобы переварить и расширить свои возможности. За время, пока TurboQuant превращается из научной статьи в промышленный инструмент и становится отраслевым стандартом, сможет ли расширение аппаратных ресурсов достаточно быстро закрыть “разрыв”, вызванный ростом эффективности?

Ответа никто не знает. Рынок оценивает этот риск.

Что это значит для индустрии ИИ

Более важное, чем рост или падение акций хранения данных, — это глубокий тренд, который показывает TurboQuant.

Главная битва в гонке за ИИ смещается с “наращивания вычислительной мощности” к “максимальной эффективности”.

Если TurboQuant подтвердит свои обещания на больших моделях, это приведет к кардинальному сдвигу: длинное окно контекста станет стандартом, доступным не только элитным лабораториям, а всей индустрии.

И этот тренд — именно то, в чем Google наиболее сильна: математически почти оптимальные алгоритмы сжатия, основанные на теории информации Шеннона, а не на грубой инженерной силе. Теоретическая искаженность TurboQuant — всего лишь примерно в 2,7 раза выше нижней границы, заданной теорией информации.

Это означает, что подобные прорывы не будут единичными. Они — часть растущего направления исследований.

Для сектора хранения данных важнее не вопрос “повлияет ли это на спрос”, а — когда и насколько быстро снижение стоимости ИИ-вычислений за счет программных решений уменьшит необходимость в дорогом железе.

На данный момент ответ — очень много, но не настолько, чтобы игнорировать такие сигналы.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .