一篇論文,把存儲股打了下去

更新時間 2026-04-03 14:56:30
閱讀時長: 7m
文章分析了基準對比、模型規模及工程實現的侷限性,並進一步引入 DeepSeek 效率衝擊及杰文斯悖論,探討效率創新如何一方面壓縮短期硬體需求,同時又在長期拓展更廣泛的應用空間。

3 月 25 日,美國科技股全面上漲,納斯達克 100 指數收紅,但有一類股票卻逆勢下跌:

SanDisk 收跌 3.50%,Micron 下跌 3.4%,Seagate 下跌 2.59%,Western Digital 下跌 1.63%。整個儲存板塊猶如在派對現場突然被人拉掉電源。

罪魁禍首是一篇論文,或者更精確地說,是 Google Research 對一篇論文的正式推廣。

這篇論文究竟做了什麼

要理解這件事,需先釐清一個 AI 基礎設施中外界少有關注的概念:KV Cache

當您與大型語言模型互動時,模型並不會每次都從零開始理解您的問題。它會將整段對話的上下文,以“鍵值對”(Key-Value Pair)的格式存於記憶體中,這就是 KV Cache,也即模型的短期工作記憶。

問題在於,KV Cache 的大小會隨著上下文視窗長度成正比增長。當上下文視窗達到百萬 token 級別時,KV Cache 所消耗的 GPU 記憶體甚至可能超過模型本身的權重。對於同時服務大量用戶的推理集群來說,這是真實存在、每日都在消耗資金的基礎設施瓶頸。

這篇論文的原始版本最早於 2025 年 4 月發表在 arXiv,並將於 ICLR 2026 正式發表。Google Research 將其命名為 TurboQuant,這是一種可將 KV Cache 壓縮至 3 比特、記憶體佔用至少減少 6 倍的無損量化演算法,無需任何訓練或微調,開箱即用。

具體技術路徑分為兩步:

第一步,PolarQuant。 它不再使用標準的笛卡爾座標系來表徵向量,而是將向量轉換為極座標——由“半徑”及一組“角度”構成——從根本上簡化了高維空間的幾何複雜度,使後續量化能以更低失真率完成。

第二步,QJL(Quantized Johnson-Lindenstrauss)。 在 PolarQuant 完成主要壓縮後,TurboQuant 透過僅 1 比特的 QJL 變換,對殘餘誤差進行無偏校正,從而保證內積估算的精確性——這對 Transformer 注意力機制的正確運作至關重要。

結果:在涵蓋問答、程式碼生成和摘要任務的 LongBench 基準測試中,TurboQuant 匹配甚至超越了現有最佳基線 KIVI 的表現;在“大海撈針”檢索任務上,實現了完美召回率;於 NVIDIA H100 上,4 比特 TurboQuant 對注意力邏輯運算的加速可達 8 倍。

傳統量化方法有一個根本問題:每壓縮一組數據,都需額外存儲“量化常數”以記錄解壓方式,這些元資料開銷通常高達每個數值額外 1 至 2 比特。乍看不多,但在百萬 token 的上下文下,這些 bits 會以極快速度累積。TurboQuant 透過 PolarQuant 的幾何旋轉與 QJL 的 1 比特殘差校正,徹底消除了這一額外開銷。

市場為何恐慌?

結論的直接性令人無法忽視:一個需要 8 張 H100 才能支援百萬 token 上下文的模型,理論上只需 2 張就足夠。推理服務商可用相同硬體同時處理 6 倍以上的長上下文並發請求。

這對儲存板塊的核心敘事無疑是一記重擊。

過去兩年,Seagate、Western Digital、Micron 之所以因 AI 資本熱潮而被推上風口,底層邏輯只有一個:大模型的記憶能力不斷提升,長上下文視窗對記憶體的需求無上限,儲存需求將持續爆發式增長。Seagate 2025 年漲幅超過 210%,公司 2026 年產能早已售罄。

TurboQuant 的出現,直接挑戰了這一敘事的基礎。

富國銀行科技分析師 Andrew Rocha 的評論最為直白:“隨著上下文視窗擴大,KV Cache 資料存儲呈爆炸式增長,記憶體需求隨之攀升。TurboQuant 正在直接衝擊這條成本曲線……若能廣泛應用,將從根本上質疑到底需要多大的記憶體容量。”

但 Rocha 也強調了一個關鍵前提:IF

這件事真正值得討論的部分

市場反應是否過於激烈?答案很可能是:有些過度。

首先,8 倍加速的“標題黨”問題。 多位分析師指出,這個 8 倍加速的對比基準,是新技術對比舊的 32 位非量化系統,而非與現今實際部署、已普遍優化的系統相比。真正的提升雖然存在,但並非標題所暗示的那般戲劇性。

其次,論文僅測試了小型模型。 TurboQuant 的所有評測,所用模型參數量最多僅約 80 億。真正令儲存供應商憂心的是 700 億乃至 4000 億參數的超大模型,這些模型的 KV Cache 才是真正的天文數字。TurboQuant 在這些量級上的表現,目前仍屬未知。

第三,Google 尚未釋出任何官方程式碼。 截至目前,TurboQuant 尚未集成於 vLLM、llama.cpp、Ollama 或任何主流推理框架。現有的早期實作是社群開發者依據論文數學推導自發復現,一位早期復現者明確指出,若 QJL 的誤差校正模組實作不當,輸出結果會直接變成亂碼。

但這並不代表市場的擔憂毫無根據。

這是 2025 年 DeepSeek 事件所遺留的集體記憶在發揮作用。那次事件讓整個市場領悟到一個殘酷現實:演算法層的效率突破,能在一夜之間顛覆昂貴硬體的敘事。自此,任何來自頂級 AI 實驗室的效率突破,都會觸發硬體板塊的條件反射。

更何況,這次信號來自 Google Research,而非默默無聞的大學實驗室。這家公司具備將論文轉化為生產級工具的工程實力,而且本身就是全球最大的 AI 推理消費者之一。一旦 TurboQuant 在內部落地,Waymo、Gemini、Google Search 的伺服器採購邏輯就會悄然改變。

歷史不斷重演的劇本

這裡有個經典爭論,值得正視:杰文斯悖論

19 世紀經濟學家杰文斯發現,蒸汽機效率提升不僅未減少英國的煤炭消耗,反而導致消耗大幅增加——因為效率提升降低了使用成本,反而刺激更大規模的應用。

支持者的邏輯是:如果 Google 讓模型能在 16GB 顯存上運行,開發者絕不會止步於此,他們會用省下來的算力運行 6 倍複雜的模型,處理更大規模的多模態資料,支援更長上下文。軟體效率最終釋放的,是那些過去因成本過高而無法觸及的需求層。

但這一反駁有個前提:市場需要時間消化並重新擴張。在 TurboQuant 從論文變為生產工具、再成為行業標準的過程中,硬體需求的擴張能否足夠快地填補效率帶來的“缺口”?

沒有人能給出答案。市場正在為這種不確定性定價。

這件事對 AI 產業的真正意義

比儲存股漲跌更值得關注的,是 TurboQuant 所揭示的更深層趨勢。

AI 軍備競賽的主戰場,正從“堆疊算力”轉向“極致效率”。

如果 TurboQuant 能在大規模模型上兌現其性能承諾,將帶來根本性轉變:長上下文推理將從“只有頂級實驗室負擔得起的奢侈品”,變為行業預設標準。

而這場效率競賽的制高點,恰是 Google 最擅長的領域——數學上近乎最優的壓縮演算法,底層是 Shannon 資訊論的極限追逐,而非單純的工程堆疊。TurboQuant 的理論失真率,僅比資訊論下界高約 2.7 倍。

這意味著,未來類似突破不會只有一例,而是一整條研究路徑正逐步成熟。

對儲存行業而言,更清醒的問題或許不是“這次會不會影響需求”,而是:當 AI 推理的成本曲線持續被軟體層壓低,硬體層的護城河還能有多寬?

目前的答案是:仍然寬廣,但已不足以對這類信號視若無睹。

聲明:

  1. 本文轉載自 [TechFlow],著作權歸原作者 [TechFlow] 所有,如對轉載有異議,請聯繫 Gate Learn 團隊,團隊將依相關流程儘速處理。

  2. 免責聲明:本文所表達的觀點和意見僅代表作者個人立場,不構成任何投資建議。

  3. 文章其他語言版本由 Gate Learn 團隊翻譯,未經提及 Gate 的情況下,不得複製、傳播或抄襲經翻譯文章。

分享

幣圈日曆
代幣解鎖
Pyth Network 將於5月19日解鎖 2,130,000,000 PYTH 代幣,約佔目前流通供應的 36.96%。
PYTH
2.25%
2026-05-18
代幣解鎖
Pump.fun 將於 7 月 12 日解鎖 82,500,000,000 PUMP 代幣,約佔目前流通供應的 23.31%。
PUMP
-3.37%
2026-07-11
代幣解鎖
Succinct 將於 8 月 5 日解鎖 208,330,000 大佬代幣,佔當前流通供應量的約 104.17%。
PROVE
2026-08-04
sign up guide logosign up guide logo
sign up guide content imgsign up guide content img
Sign Up

相關文章

Arweave:用AO電腦捕捉市場機會
新手

Arweave:用AO電腦捕捉市場機會

以點對點網路為例的分散式存儲創建了一個全域、無需信任且不可變的硬碟驅動器。Arweave是該領域的龍頭,提供具有成本效益的解決方案,確保持久性、不變性性和抗審查性性,這對於 NFT 和 dApp 不斷增長的需求至關重要。
2026-03-24 11:54:35
即將到來的AO代幣:可能是鏈上AI代理的終極解決方案
中級

即將到來的AO代幣:可能是鏈上AI代理的終極解決方案

AO建立在Arweave的鏈上存儲之上,實現了無限可擴展的去中心化計算,允許無限數量的進程並行運行。去中心化 AI 代理由AR託管鏈上,並由 AO 鏈上運行。
2026-03-24 11:54:38
深度分析:AI和Web3能創造什麼樣的火花?
進階

深度分析:AI和Web3能創造什麼樣的火花?

本文探討了人工智慧 (AI) 和 Web3 技術的快速發展及其整合的潛在價值和影響。AI 擅長提高生產力,而 Web3 通過去中心化改變生產關係。這些技術的結合帶來了數據分析、個人化使用者服務以及安全和隱私保護方面的創新應用。
2026-03-24 11:54:35
思維網路:全面同態加密和重質押,讓AI專案安全觸手可及
中級

思維網路:全面同態加密和重質押,讓AI專案安全觸手可及

Mind是一種AI重質押解決方案,通過靈活的重質押和共識安全的全同態加密,確保去中心化AI網路的代幣經濟和數據安全。雖然 EigenLayer 使用重質押來保護以太坊生態系統中的不同 AVS,但 Mind Network 使用重質押來確保整個加密生態系統中各種 AI 網路的共識。
2026-03-24 11:54:36
關於GT-協議你需要了解的一切
新手

關於GT-協議你需要了解的一切

GT Protocol是2024年最受矚目的人工智能產品之一,利用先進的人工智能技術創建獨特的人工智能交易工具。它可以用於CeFi、DeFi和NFT市場的人工智能投資組合管理、人工智能交易和投資方法,幫助人們輕松發現並投資於各種Web3機會。它已經吸引了數億用戶參與。
2026-03-24 11:55:16
加密敘事是什麼?2025年熱門敘事盤點(更新版)
新手

加密敘事是什麼?2025年熱門敘事盤點(更新版)

迷因幣、流動再質押代幣、流動性質押衍生品、區塊鏈模塊化、Layer 1、Layer 2(Optimistic Rollups與零知識Rollups)、BRC-20、DePIN、Telegram 加密交易機器人、預測市場以及RWA是 2024 年值得關注的加密敘事。
2026-03-24 11:55:41