一篇论文,把存储股打了下去

更新时间 2026-03-30 09:21:25
阅读时长: 7m
文章指出基准对比、模型规模与工程落地的局限,又引入 DeepSeek 效率冲击和杰文斯悖论,讨论效率创新如何一边挤压短期硬体需求,一边长期打开更大应用空间。

3 月 25 日,美股科技股普涨,纳斯达克 100 指数飘红,但有一类股票在逆势流血:

闪迪收跌 3.50%,Micron 跌 3.4%,希捷跌 2.59%,西部数据跌 1.63%。整个存储板块像在一场派对上突然被人拉了电闸。

凶手是一篇论文,或者更准确地说,是 Google Research 对一篇论文的正式推广。

这篇论文到底做了什么

理解这件事,需要先搞清楚一个 AI 基础设施里鲜被外界关注的概念:KV Cache

当你跟一个大语言模型对话,模型不会每次都从零开始理解你的问题。它会把整段对话的上下文,以一种叫做"键值对"(Key-Value Pair)的格式存在内存里,这就是 KV Cache,模型的短期工作记忆。

问题在于,KV Cache 的大小与上下文窗口的长度成正比增长。当上下文窗口达到百万 token 量级时,KV Cache 消耗的 GPU 内存甚至可能超过模型本身的权重。对于一个同时服务大量用户的推理集群而言,这是真实的、每天都在烧钱的基础设施瓶颈。

这篇论文的原始版本,最早出现在 2025 年 4 月的 arXiv 上,将在 ICLR 2026 正式发表。Google Research 将其命名为 TurboQuant,一个将 KV Cache 压缩至 3 比特、内存减少至少 6 倍的无损量化算法,无需任何训练或微调,开箱即用。

具体的技术路径是两步走:

第一步,PolarQuant。 它不使用标准的笛卡尔坐标系来表征向量,而是将向量转换为极坐标——由"半径"和一组"角度"构成——从而从根本上简化了高维空间的几何复杂性,使后续量化可以在更低的失真率下完成。

第二步,QJL(Quantized Johnson-Lindenstrauss)。 在 PolarQuant 完成主要压缩之后,TurboQuant 使用仅 1 比特的 QJL 变换,对残余误差进行无偏校正,从而保证内积估计的精确性——这对 Transformer 注意力机制的正确运行至关重要。

结果:在涵盖问答、代码生成和摘要任务的 LongBench 基准测试中,TurboQuant 匹配甚至超越了现有最优基线 KIVI 的表现;在"大海捞针"检索任务上,实现了完美召回率;在 NVIDIA H100 上,4 比特 TurboQuant 对注意力逻辑运算的加速达到 8 倍。

传统量化方法有个原罪:每压缩一块数据,都需要额外存储"量化常数"来记录如何解压,这个元数据的开销往往高达每个数值额外 1 到 2 比特,看起来不多,但在百万 token 的上下文下,这些 bits 会以令人绝望的速度累积。TurboQuant 通过 PolarQuant 的几何旋转和 QJL 的 1 比特残差校正,彻底消除了这一额外开销。

市场为什么慌了?

结论的直接性让人很难忽视:一个需要 8 块 H100 才能服务百万 token 上下文的模型,理论上只需要 2 块就够了。推理服务商可以用同样的硬件同时处理 6 倍以上的并发长上下文请求。

这对存储板块的核心叙事是一刀刺向要害。

过去两年,Seagate、西部数据、Micron 之所以被 AI 资本热潮抬上神坛,底层逻辑只有一个:大模型越来越能"记住"更多,长上下文窗口对内存的胃口没有上限,存储需求将持续爆炸式增长。Seagate 2025 年涨了超过 210%,公司本身 2026 年的产能早已售罄。

TurboQuant 的出现,直接挑战了这个叙事的前提。

富国银行科技分析师 Andrew Rocha 的评论最为直接:“随着上下文窗口越来越大,KV Cache 中的数据存储呈爆炸式增长,对内存的需求随之攀升。TurboQuant 正在直接攻击这条成本曲线……如果它能被广泛采用,将从根本上令人质疑到底需要多大的内存容量。”

但 Rocha 也用了一个关键前提:IF

这件事真正值得争论的部分

市场的反应是否过激了?答案大概率是:有点。

首先,8 倍加速的标题党问题。 多位分析师指出,这个 8 倍加速的对比基准,是用新技术与旧的 32 位非量化系统相比,而非与当前实际部署中已普遍优化的系统比较。真实的提升存在,但不像标题暗示的那样戏剧性。

其次,论文只测试了小模型。 TurboQuant 的所有评测,所用模型的参数量顶多在 80 亿左右。真正让存储供应商日夜焦虑的,是 700 亿甚至 4000 亿参数的超大模型,那里的 KV Cache 才是真正的天文数字。TurboQuant 在这些量级上的表现,目前仍是未知数。

第三,Google 自己还没有发布任何官方代码。 截至目前,TurboQuant 不在 vLLM、llama.cpp、Ollama 和任何主流推理框架中。是社区开发者自己从论文数学推导中复现了早期实现,一个早期复现者明确指出,QJL 的误差校正模块如果实现不当,输出会直接变成乱码。

但这并不意味着市场的担忧是无中生有。

这是 2025 年 DeepSeek 时刻留下的集体肌肉记忆在发挥作用。那次事件教会了整个市场一个残酷的教训:算法层面的效率突破,能在一夜之间让昂贵的硬件叙事面目全非。此后,任何来自顶级 AI 实验室的效率突破,都会触发硬件板块的条件反射。

况且,这次的信号来自 Google Research,不是一家名不见经传的大学实验室,这家公司有足够的工程能力将论文转化为生产级工具,而且它自己就是全球最大的 AI 推理消费者之一。一旦 TurboQuant 在内部落地,Waymo、Gemini、Google Search 的服务器采购逻辑就会悄悄改变。

历史反复上演的那个剧本

这里有一个经典争论,值得认真对待:杰文斯悖论

19 世纪经济学家杰文斯发现,蒸汽机效率的提升,非但没有减少英国的煤炭消耗,反而导致消耗大幅增加——因为效率提升降低了使用成本,反而刺激了更大规模的应用。

支持者的逻辑是:如果 Google 让一个模型能在 16GB 显存上运行,开发者不会就此收手,他们会用省下来的算力去运行 6 倍复杂的模型,处理更大的多模态数据,支持更长的上下文。软件效率最终解锁的,是那些此前因成本过高而根本无法触及的需求层。

但这个反驳有个前提:市场需要时间来消化和重新扩张。在 TurboQuant 从论文变成生产工具、从生产工具变成行业标准的这段时间里,硬件需求的扩张能否足够快地填补效率带来的"缺口"?

没有人知道答案。市场正在为这个不确定性定价。

这件事对 AI 行业的真正意义

比存储股的涨跌更值得关注的,是 TurboQuant 揭示的一个更深层趋势。

AI 军备竞赛的主战场,正在从"堆算力"向"极致效率"迁移。

TurboQuant 如果能在大规模模型上证明自己的性能承诺,将带来一个根本性的转变:长上下文推理从"只有顶级实验室才负担得起的奢侈品",变成默认的行业标准。

而这场效率竞赛的赛点,恰恰也是 Google 最擅长的领域,数学上近乎最优的压缩算法,底层是 Shannon 信息论的极限追逐,而不是暴力的工程堆砌。TurboQuant 的理论失真率,只比信息论下界高约 2.7 倍的常数因子。

这意味着,类似的突破未来不会只有一个。它代表的是一整条研究路径正在走向成熟。

对存储行业而言,更清醒的问题或许不是“这次会不会影响需求”,而是:当 AI 推理的成本曲线持续被软件层压低,硬件层的护城河还能宽到什么程度?

目前的答案是:还很宽,但没有宽到可以对这类信号置之不理的程度。

声明:

  1. 本文转载自 [TechFlow],著作权归属原作者 [TechFlow],如对转载有异议,请联系 Gate Learn 团队,团队会根据相关流程尽速处理。

  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。

  3. 文章其他语言版本 由 Gate Learn 团队翻译, 在未提及 Gate 的情况下不得复制、传播或抄袭经翻译文章。

分享

币圈日历
代币解锁
Wormhole将在4月3日解锁1,280,000,000个W代币,约占当前流通供应的28.39%。
W
-7.32%
2026-04-02
代币解锁
Pyth Network 将于5月19日解锁 2,130,000,000 PYTH 代币,约占目前流通供应的 36.96%。
PYTH
2.25%
2026-05-18
代币解锁
Pump.fun 将于 7 月 12 日解锁 82,500,000,000 PUMP 代币,约占目前流通供应的 23.31%。
PUMP
-3.37%
2026-07-11
代币解锁
Succinct 将于 8 月 5 日解锁 208,330,000 大佬代币,占当前流通供应量的约 104.17%。
PROVE
2026-08-04
sign up guide logosign up guide logo
sign up guide content imgsign up guide content img
Sign Up

相关文章

一文盘点 Top 10 AI Agents
中级

一文盘点 Top 10 AI Agents

纵观市场上的诸多 AI Agents,尽管在功能上同质化现象严重,但也会在某些方面独辟蹊径,为用户带来独特体验。本文将基于市场热度、项目创新、代币市值和交易量等多个维度总结出目前市场上的 Top10 AI Agents(排名不分前后),以供用户参考。
2026-03-24 11:56:04
解读 Vana 的野心:实现数据货币化,构建由用户主导的 AI 开发生态
新手

解读 Vana 的野心:实现数据货币化,构建由用户主导的 AI 开发生态

通过将数据民主化和货币化,Vana 正试图从根本上重新定义个人私有数据的归属和价值分配,创建一个真正由用户主导,并收益的 AI 开发生态系统。本文将从 Vana 的核心技术架构、测试网生态建设、团队背景及融资等方面解读该项目,并附上用户参与 Vana 生态的交互指南。
2026-03-24 11:55:49
Sentient AGI:社区构建的开放 AGI
中级

Sentient AGI:社区构建的开放 AGI

了解 Sentient AGI 如何通过其社区构建的去中心化方法,革新 AI 行业。了解开放、可盈利和忠诚(OML)模型,以及它如何促进 AI 开发中的创新与合作。
2026-03-24 11:55:53
一文读懂 Eliza 和它背后的价值逻辑
中级

一文读懂 Eliza 和它背后的价值逻辑

Eliza 不仅是一个可爱女孩 AI 角色,更是一个功能强大、轻量级的 AI 代理框架,可以帮助用户简单、快速的创建、部署和管理 AI 代理。本文将围绕 Eliza 团队背景、市场表现、模块化架构、代币经济模型、未来规划等,深入解析该项目和其背后的 ai16z 生态,以供用户参考
2026-03-24 11:56:13
探究 Smart Agent Hub 背后: Sonic SVM 及其扩容框架 HyperGrid
中级

探究 Smart Agent Hub 背后: Sonic SVM 及其扩容框架 HyperGrid

Smart Agent Hub 基于 Sonic HyperGrid 框架构建,该架构采用半自治多网格方法,既能够保持与 Solana 主网的兼容性,也能够为开发人员提供更多的灵活性和性能优化选项,特别是针对游戏等高性能要求的应用。
2026-03-24 11:56:30
一文带你了解 GT-Protocol
新手

一文带你了解 GT-Protocol

GT Protocol 是 2024年最受炒作的人工智能产品之一,利用先进的 AI 技术打造独特的AI交易工具,可以对 CeFi、DeFi 和 NFT 市场使用 AI 投资组合管理、AI 交易和投资方法等,帮助人们轻松发现和投资各种 Web3 机会,并吸引了上亿用户参与使用。
2026-03-24 11:55:16