3 月 25 日,美國科技股全面上漲,納斯達克 100 指數收紅,但有一類股票卻逆勢下跌:
SanDisk 收跌 3.50%,Micron 下跌 3.4%,Seagate 下跌 2.59%,Western Digital 下跌 1.63%。整個儲存板塊猶如在派對現場突然被人拉掉電源。
罪魁禍首是一篇論文,或者更精確地說,是 Google Research 對一篇論文的正式推廣。
要理解這件事,需先釐清一個 AI 基礎設施中外界少有關注的概念:KV Cache。
當您與大型語言模型互動時,模型並不會每次都從零開始理解您的問題。它會將整段對話的上下文,以“鍵值對”(Key-Value Pair)的格式存於記憶體中,這就是 KV Cache,也即模型的短期工作記憶。
問題在於,KV Cache 的大小會隨著上下文視窗長度成正比增長。當上下文視窗達到百萬 token 級別時,KV Cache 所消耗的 GPU 記憶體甚至可能超過模型本身的權重。對於同時服務大量用戶的推理集群來說,這是真實存在、每日都在消耗資金的基礎設施瓶頸。
這篇論文的原始版本最早於 2025 年 4 月發表在 arXiv,並將於 ICLR 2026 正式發表。Google Research 將其命名為 TurboQuant,這是一種可將 KV Cache 壓縮至 3 比特、記憶體佔用至少減少 6 倍的無損量化演算法,無需任何訓練或微調,開箱即用。
具體技術路徑分為兩步:
第一步,PolarQuant。 它不再使用標準的笛卡爾座標系來表徵向量,而是將向量轉換為極座標——由“半徑”及一組“角度”構成——從根本上簡化了高維空間的幾何複雜度,使後續量化能以更低失真率完成。
第二步,QJL(Quantized Johnson-Lindenstrauss)。 在 PolarQuant 完成主要壓縮後,TurboQuant 透過僅 1 比特的 QJL 變換,對殘餘誤差進行無偏校正,從而保證內積估算的精確性——這對 Transformer 注意力機制的正確運作至關重要。
結果:在涵蓋問答、程式碼生成和摘要任務的 LongBench 基準測試中,TurboQuant 匹配甚至超越了現有最佳基線 KIVI 的表現;在“大海撈針”檢索任務上,實現了完美召回率;於 NVIDIA H100 上,4 比特 TurboQuant 對注意力邏輯運算的加速可達 8 倍。
傳統量化方法有一個根本問題:每壓縮一組數據,都需額外存儲“量化常數”以記錄解壓方式,這些元資料開銷通常高達每個數值額外 1 至 2 比特。乍看不多,但在百萬 token 的上下文下,這些 bits 會以極快速度累積。TurboQuant 透過 PolarQuant 的幾何旋轉與 QJL 的 1 比特殘差校正,徹底消除了這一額外開銷。
結論的直接性令人無法忽視:一個需要 8 張 H100 才能支援百萬 token 上下文的模型,理論上只需 2 張就足夠。推理服務商可用相同硬體同時處理 6 倍以上的長上下文並發請求。
這對儲存板塊的核心敘事無疑是一記重擊。
過去兩年,Seagate、Western Digital、Micron 之所以因 AI 資本熱潮而被推上風口,底層邏輯只有一個:大模型的記憶能力不斷提升,長上下文視窗對記憶體的需求無上限,儲存需求將持續爆發式增長。Seagate 2025 年漲幅超過 210%,公司 2026 年產能早已售罄。
TurboQuant 的出現,直接挑戰了這一敘事的基礎。
富國銀行科技分析師 Andrew Rocha 的評論最為直白:“隨著上下文視窗擴大,KV Cache 資料存儲呈爆炸式增長,記憶體需求隨之攀升。TurboQuant 正在直接衝擊這條成本曲線……若能廣泛應用,將從根本上質疑到底需要多大的記憶體容量。”
但 Rocha 也強調了一個關鍵前提:IF。
市場反應是否過於激烈?答案很可能是:有些過度。
首先,8 倍加速的“標題黨”問題。 多位分析師指出,這個 8 倍加速的對比基準,是新技術對比舊的 32 位非量化系統,而非與現今實際部署、已普遍優化的系統相比。真正的提升雖然存在,但並非標題所暗示的那般戲劇性。
其次,論文僅測試了小型模型。 TurboQuant 的所有評測,所用模型參數量最多僅約 80 億。真正令儲存供應商憂心的是 700 億乃至 4000 億參數的超大模型,這些模型的 KV Cache 才是真正的天文數字。TurboQuant 在這些量級上的表現,目前仍屬未知。
第三,Google 尚未釋出任何官方程式碼。 截至目前,TurboQuant 尚未集成於 vLLM、llama.cpp、Ollama 或任何主流推理框架。現有的早期實作是社群開發者依據論文數學推導自發復現,一位早期復現者明確指出,若 QJL 的誤差校正模組實作不當,輸出結果會直接變成亂碼。
但這並不代表市場的擔憂毫無根據。
這是 2025 年 DeepSeek 事件所遺留的集體記憶在發揮作用。那次事件讓整個市場領悟到一個殘酷現實:演算法層的效率突破,能在一夜之間顛覆昂貴硬體的敘事。自此,任何來自頂級 AI 實驗室的效率突破,都會觸發硬體板塊的條件反射。
更何況,這次信號來自 Google Research,而非默默無聞的大學實驗室。這家公司具備將論文轉化為生產級工具的工程實力,而且本身就是全球最大的 AI 推理消費者之一。一旦 TurboQuant 在內部落地,Waymo、Gemini、Google Search 的伺服器採購邏輯就會悄然改變。
這裡有個經典爭論,值得正視:杰文斯悖論。
19 世紀經濟學家杰文斯發現,蒸汽機效率提升不僅未減少英國的煤炭消耗,反而導致消耗大幅增加——因為效率提升降低了使用成本,反而刺激更大規模的應用。
支持者的邏輯是:如果 Google 讓模型能在 16GB 顯存上運行,開發者絕不會止步於此,他們會用省下來的算力運行 6 倍複雜的模型,處理更大規模的多模態資料,支援更長上下文。軟體效率最終釋放的,是那些過去因成本過高而無法觸及的需求層。
但這一反駁有個前提:市場需要時間消化並重新擴張。在 TurboQuant 從論文變為生產工具、再成為行業標準的過程中,硬體需求的擴張能否足夠快地填補效率帶來的“缺口”?
沒有人能給出答案。市場正在為這種不確定性定價。
比儲存股漲跌更值得關注的,是 TurboQuant 所揭示的更深層趨勢。
AI 軍備競賽的主戰場,正從“堆疊算力”轉向“極致效率”。
如果 TurboQuant 能在大規模模型上兌現其性能承諾,將帶來根本性轉變:長上下文推理將從“只有頂級實驗室負擔得起的奢侈品”,變為行業預設標準。
而這場效率競賽的制高點,恰是 Google 最擅長的領域——數學上近乎最優的壓縮演算法,底層是 Shannon 資訊論的極限追逐,而非單純的工程堆疊。TurboQuant 的理論失真率,僅比資訊論下界高約 2.7 倍。
這意味著,未來類似突破不會只有一例,而是一整條研究路徑正逐步成熟。
對儲存行業而言,更清醒的問題或許不是“這次會不會影響需求”,而是:當 AI 推理的成本曲線持續被軟體層壓低,硬體層的護城河還能有多寬?
目前的答案是:仍然寬廣,但已不足以對這類信號視若無睹。
本文轉載自 [TechFlow],著作權歸原作者 [TechFlow] 所有,如對轉載有異議,請聯繫 Gate Learn 團隊,團隊將依相關流程儘速處理。
免責聲明:本文所表達的觀點和意見僅代表作者個人立場,不構成任何投資建議。
文章其他語言版本由 Gate Learn 團隊翻譯,未經提及 Gate 的情況下,不得複製、傳播或抄襲經翻譯文章。





