重點一:TurboQuant 採兩段壓縮流程(PolarQuant + QJL),可將 KV 快取量化至 3 位元,無需重新訓練即達零精度損失,記憶體用量最多縮小 6 倍。
重點二:TurboQuant 採兩段壓縮流程(PolarQuant + QJL),可將 KV 快取量化至 3 位元,無需重新訓練即達零精度損失,記憶體用量最多縮小 6 倍。
重點三:目前仍為實驗室研究階段,但技術路徑驗證了「不改動模型、靠壓縮演算法降低推論成本」的可行性,對高算力成本的 AI 服務商具有直接意義。
一項讓 AI 模型用更少記憶體跑出更高效能的演算法,在研究社群引發廣泛討論,有人把它稱為「現實版 Pied Piper」。
Google Research 於 2026 年 3 月發布 TurboQuant,這是一套針對大型語言模型(LLM)KV 快取(Key-Value Cache)的壓縮演算法,主打在不需重新訓練或微調模型的前提下,將記憶體占用量壓縮至原本的六分之一,且精度損失接近於零。
為何被稱為「現實版 Pied Piper」
HBO 影集《矽谷》中,虛構新創公司 Pied Piper 以一套「中間出來壓縮法」顛覆了整個科技產業。如今 TurboQuant 登場,網路社群立刻搬出這個梗:一個把 AI 工作記憶壓縮六倍、還不犧牲精度的演算法,聽起來確實太像劇情了。
當然,Google 自己不這樣說。但這個比較點出了 TurboQuant 的核心定位:它不是要讓模型更聰明,而是讓同樣聰明的模型用更少資源跑起來。
技術原理:兩段壓縮,殘差消除
TurboQuant 採用兩階段流程。
第一階段是 PolarQuant:將向量從笛卡兒坐標轉換為極坐標,分離出「強度」(半徑)和「方向」(角度)兩項資訊,透過固定圓形網格進行量化,消除傳統量化方法的記憶體額外開銷。
第二階段是 QJL(Quantized Johnson-Lindenstrauss):使用 Johnson-Lindenstrauss 變換縮減高維資料維度,把每個向量數字壓縮為單一符號位(+1 或 -1),再以特殊估計器補回精度,達到「零記憶體額外開銷」設計。
兩段合一,最終使 KV 快取量化至 3 位元成為可能,且無需訓練或微調即可部署。
關鍵性能數字
- KV 快取記憶體用量:最多減少 6 倍
- 速度:4 位元 TurboQuant 在 H100 GPU 上,相較 32 位元未量化基線最高快 8 倍
- 精度:在 LongBench、ZeroSCROLLS、RULER、L-Eval 等主流評測基準上,使用 Gemma 和 Mistral 模型驗證,零精度損失
KV 快取是什麼,為何重要?
要理解 TurboQuant 的意義,需要先搞清楚 KV 快取的角色。
LLM 在推理過程中,每次生成下一個 token,都需要存取先前所有 token 的「鍵」(Key)和「值」(Value)向量,這個暫存區就是 KV 快取。它讓模型不必每次重算,直接查表繼續。
問題是,當序列長度增加,例如處理長文件、多輪對話時,KV 快取記憶體用量隨序列長度線性成長,實務上很快就成為 GPU 記憶體瓶頸,這也是為何 Gemini 這類超長上下文模型,會特別在意快取效率。
TurboQuant 的解法是在不丟掉資訊的前提下,把這個快取壓薄。6 倍壓縮意味著同樣一張 GPU 可以塞進更長的序列,或同時服務更多並行請求——直接影響推論成本。
應用範圍不只 LLM
除了大型語言模型,TurboQuant 的設計對向量資料庫同樣適用。Google 在 GloVe 資料集上的實驗顯示,其向量搜尋精度優於現有量化基準,意味著語意搜尋、跨十億級向量的索引建構與查詢,都有機會因此受益。
現況:仍是實驗室成果
TechCrunch 指出,TurboQuant 目前仍是實驗室研究階段,尚未進入產品部署。Google 已將論文與相關程式碼公開,但從研究到生產環境的距離,往往需要更長的驗證周期。
對業界而言,更直接的意義或許不在於 TurboQuant 本身何時落地,而是它驗證了一條路徑:在不改動模型的前提下,透過更精密的壓縮演算法大幅降低推論成本。
這條路如果成立,是所有在算力成本上苦苦掙扎的 AI 服務商都想走的路。
資料來源:Google Research Blog、TechCrunch
本文初稿為AI編撰,整理.編輯/ 李先泰
