第二步，QJL（Quantized Johnson-Lindenstrauss）。 在 PolarQuant 完成主要压缩之后，TurboQuant 使用仅 1 比特的 QJL 变换，对残余误差进行无偏校正，从而保证内积估计的精确性——这对 Transformer 注意力机制的正确运行至关重要。

结果：在涵盖问答、代码生成和摘要任务的 LongBench 基准测试中，TurboQuant 匹配甚至超越了现有最优基线 KIVI 的表现；在"大海捞针"检索任务上，实现了完美召回率；在 NVIDIA H100 上，4 比特 TurboQuant 对注意力逻辑运算的加速达到 8 倍。

传统量化方法有个原罪：每压缩一块数据，都需要额外存储"量化常数"来记录如何解压，这个元数据的开销往往高达每个数值额外 1 到 2 比特，看起来不多，但在百万 token 的上下文下，这些 bits 会以令人绝望的速度累积。TurboQuant 通过 PolarQuant 的几何旋转和 QJL 的 1 比特残差校正，彻底消除了这一额外开销。

市场为什么慌了？

结论的直接性让人很难忽视：一个需要 8 块 H100 才能服务百万 token 上下文的模型，理论上只需要 2 块就够了。推理服务商可以用同样的硬件同时处理 6 倍以上的并发长上下文请求。

这对存储板块的核心叙事是一刀刺向要害。

过去两年，Seagate、西部数据、Micron 之所以被 AI 资本热潮抬上神坛，底层逻辑只有一个：大模型越来越能"记住"更多，长上下文窗口对内存的胃口没有上限，存储需求将持续爆炸式增长。Seagate 2025 年涨了超过 210%，公司本身 2026 年的产能早已售罄。

TurboQuant 的出现，直接挑战了这个叙事的前提。

富国银行科技分析师 Andrew Rocha 的评论最为直接：“随着上下文窗口越来越大，KV Cache 中的数据存储呈爆炸式增长，对内存的需求随之攀升。TurboQuant 正在直接攻击这条成本曲线……如果它能被广泛采用，将从根本上令人质疑到底需要多大的内存容量。”

但 Rocha 也用了一个关键前提：IF。

这件事真正值得争论的部分

市场的反应是否过激了？答案大概率是：有点。

首先，8 倍加速的标题党问题。 多位分析师指出，这个 8 倍加速的对比基准，是用新技术与旧的 32 位非量化系统相比，而非与当前实际部署中已普遍优化的系统比较。真实的提升存在，但不像标题暗示的那样戏剧性。

其次，论文只测试了小模型。 TurboQuant 的所有评测，所用模型的参数量顶多在 80 亿左右。真正让存储供应商日夜焦虑的，是 700 亿甚至 4000 亿参数的超大模型，那里的 KV Cache 才是真正的天文数字。TurboQuant 在这些量级上的表现，目前仍是未知数。

第三，Google 自己还没有发布任何官方代码。 截至目前，TurboQuant 不在 vLLM、llama.cpp、Ollama 和任何主流推理框架中。是社区开发者自己从论文数学推导中复现了早期实现，一个早期复现者明确指出，QJL 的误差校正模块如果实现不当，输出会直接变成乱码。

但这并不意味着市场的担忧是无中生有。

这是 2025 年 DeepSeek 时刻留下的集体肌肉记忆在发挥作用。那次事件教会了整个市场一个残酷的教训：算法层面的效率突破，能在一夜之间让昂贵的硬件叙事面目全非。此后，任何来自顶级 AI 实验室的效率突破，都会触发硬件板块的条件反射。

况且，这次的信号来自 Google Research，不是一家名不见经传的大学实验室，这家公司有足够的工程能力将论文转化为生产级工具，而且它自己就是全球最大的 AI 推理消费者之一。一旦 TurboQuant 在内部落地，Waymo、Gemini、Google Search 的服务器采购逻辑就会悄悄改变。

历史反复上演的那个剧本

这里有一个经典争论，值得认真对待：杰文斯悖论。

19 世纪经济学家杰文斯发现，蒸汽机效率的提升，非但没有减少英国的煤炭消耗，反而导致消耗大幅增加——因为效率提升降低了使用成本，反而刺激了更大规模的应用。

支持者的逻辑是：如果 Google 让一个模型能在 16GB 显存上运行，开发者不会就此收手，他们会用省下来的算力去运行 6 倍复杂的模型，处理更大的多模态数据，支持更长的上下文。软件效率最终解锁的，是那些此前因成本过高而根本无法触及的需求层。

但这个反驳有个前提：市场需要时间来消化和重新扩张。在 TurboQuant 从论文变成生产工具、从生产工具变成行业标准的这段时间里，硬件需求的扩张能否足够快地填补效率带来的"缺口"？

没有人知道答案。市场正在为这个不确定性定价。

这件事对 AI 行业的真正意义

比存储股的涨跌更值得关注的，是 TurboQuant 揭示的一个更深层趋势。

AI 军备竞赛的主战场，正在从"堆算力"向"极致效率"迁移。

TurboQuant 如果能在大规模模型上证明自己的性能承诺，将带来一个根本性的转变：长上下文推理从"只有顶级实验室才负担得起的奢侈品"，变成默认的行业标准。

而这场效率竞赛的赛点，恰恰也是 Google 最擅长的领域，数学上近乎最优的压缩算法，底层是 Shannon 信息论的极限追逐，而不是暴力的工程堆砌。TurboQuant 的理论失真率，只比信息论下界高约 2.7 倍的常数因子。

这意味着，类似的突破未来不会只有一个。它代表的是一整条研究路径正在走向成熟。

对存储行业而言，更清醒的问题或许不是“这次会不会影响需求”，而是：当 AI 推理的成本曲线持续被软件层压低，硬件层的护城河还能宽到什么程度？

目前的答案是：还很宽，但没有宽到可以对这类信号置之不理的程度。

声明：

本文转载自 [TechFlow]，著作权归属原作者 [TechFlow]，如对转载有异议，请联系 Gate Learn 团队，团队会根据相关流程尽速处理。
免责声明：本文所表达的观点和意见仅代表作者个人观点，不构成任何投资建议。
文章其他语言版本由 Gate Learn 团队翻译，在未提及 Gate 的情况下不得复制、传播或抄袭经翻译文章。

这篇论文到底做了什么

市场为什么慌了？

这件事真正值得争论的部分

历史反复上演的那个剧本

这件事对 AI 行业的真正意义

快讯

中级

GateClaw 与 AI Skills：Web3 AI Agent 的能力体系解析

GateClaw AI Skills 是一种面向 Web3 AI Agent 的模块化能力体系，用于将市场数据分析、链上信息查询以及交易执行等功能封装为可调用的智能模块，使 AI Agent 能够在统一系统中执行自动化任务。通过 AI Skills，复杂的 Web3 操作逻辑可以被转化为标准化能力接口，从而让 AI 模型不仅能够分析信息，还可以直接执行市场相关操作。

2026-03-24 11:58:44

中级

GateClaw 的核心功能：Web3 AI Agent 工作站能力解析

GateClaw 是一种面向 Web3 生态设计的 AI Agent 工作站，通过整合 AI 模型、模块化 Skills 与加密交易基础设施，使智能体能够在统一环境中执行数据分析、自动化交易和链上监控等任务。与传统 AI 工具主要用于信息处理不同，GateClaw 更强调 AI Agent 的执行能力，使其能够在真实市场环境中运行自动化流程。

2026-03-24 17:51:06