Google 推出 TurboQuant:3 位元量化零損失,讓 AI「工作記憶」縮小 6 倍
Google 推出 TurboQuant:3 位元量化零損失,讓 AI「工作記憶」縮小 6 倍

重點一:TurboQuant 採兩段壓縮流程(PolarQuant + QJL),可將 KV 快取量化至 3 位元,無需重新訓練即達零精度損失,記憶體用量最多縮小 6 倍。

重點二:TurboQuant 採兩段壓縮流程(PolarQuant + QJL),可將 KV 快取量化至 3 位元,無需重新訓練即達零精度損失,記憶體用量最多縮小 6 倍。

重點三:目前仍為實驗室研究階段,但技術路徑驗證了「不改動模型、靠壓縮演算法降低推論成本」的可行性,對高算力成本的 AI 服務商具有直接意義。

一項讓 AI 模型用更少記憶體跑出更高效能的演算法,在研究社群引發廣泛討論,有人把它稱為「現實版 Pied Piper」。

Google Research 於 2026 年 3 月發布 TurboQuant,這是一套針對大型語言模型(LLM)KV 快取(Key-Value Cache)的壓縮演算法,主打在不需重新訓練或微調模型的前提下,將記憶體占用量壓縮至原本的六分之一,且精度損失接近於零。

為何被稱為「現實版 Pied Piper」

HBO 影集《矽谷》中,虛構新創公司 Pied Piper 以一套「中間出來壓縮法」顛覆了整個科技產業。如今 TurboQuant 登場,網路社群立刻搬出這個梗:一個把 AI 工作記憶壓縮六倍、還不犧牲精度的演算法,聽起來確實太像劇情了。

當然,Google 自己不這樣說。但這個比較點出了 TurboQuant 的核心定位:它不是要讓模型更聰明,而是讓同樣聰明的模型用更少資源跑起來

技術原理:兩段壓縮,殘差消除

TurboQuant 採用兩階段流程。

第一階段是 PolarQuant:將向量從笛卡兒坐標轉換為極坐標,分離出「強度」(半徑)和「方向」(角度)兩項資訊,透過固定圓形網格進行量化,消除傳統量化方法的記憶體額外開銷。

PolarQuant示意圖
系統先把原本一大坨用 X、Y 座標記下來的數字資料(左邊綠色長條),轉成「長度+角度」的極座標簡寫(右邊黃色方塊)。中間那三個像儀表的圓盤,就是一步一步「量角度、量長度」的過程:每抓一小組數字,就算出它到底是「多長、朝哪個方向」,再繼續往下濃縮。這樣處理完之後,資料變得比較精簡、好存又好算,但原本的重要資訊還在,後面模型在記憶、搜尋東西時就可以跑得又快又省記憶體。
圖/ Google

第二階段是 QJL(Quantized Johnson-Lindenstrauss):使用 Johnson-Lindenstrauss 變換縮減高維資料維度,把每個向量數字壓縮為單一符號位(+1 或 -1),再以特殊估計器補回精度,達到「零記憶體額外開銷」設計。

兩段合一,最終使 KV 快取量化至 3 位元成為可能,且無需訓練或微調即可部署。

關鍵性能數字

  • KV 快取記憶體用量:最多減少 6 倍
  • 速度:4 位元 TurboQuant 在 H100 GPU 上,相較 32 位元未量化基線最高快 8 倍
  • 精度:在 LongBench、ZeroSCROLLS、RULER、L-Eval 等主流評測基準上,使用 Gemma 和 Mistral 模型驗證,零精度損失

KV 快取是什麼,為何重要?

要理解 TurboQuant 的意義,需要先搞清楚 KV 快取的角色。

LLM 在推理過程中,每次生成下一個 token,都需要存取先前所有 token 的「鍵」(Key)和「值」(Value)向量,這個暫存區就是 KV 快取。它讓模型不必每次重算,直接查表繼續。

問題是,當序列長度增加,例如處理長文件、多輪對話時,KV 快取記憶體用量隨序列長度線性成長,實務上很快就成為 GPU 記憶體瓶頸,這也是為何 Gemini 這類超長上下文模型,會特別在意快取效率。

TurboQuant 的解法是在不丟掉資訊的前提下,把這個快取壓薄。6 倍壓縮意味著同樣一張 GPU 可以塞進更長的序列,或同時服務更多並行請求——直接影響推論成本。

應用範圍不只 LLM

除了大型語言模型,TurboQuant 的設計對向量資料庫同樣適用。Google 在 GloVe 資料集上的實驗顯示,其向量搜尋精度優於現有量化基準,意味著語意搜尋、跨十億級向量的索引建構與查詢,都有機會因此受益。

現況:仍是實驗室成果

TechCrunch 指出,TurboQuant 目前仍是實驗室研究階段,尚未進入產品部署。Google 已將論文與相關程式碼公開,但從研究到生產環境的距離,往往需要更長的驗證周期。

對業界而言,更直接的意義或許不在於 TurboQuant 本身何時落地,而是它驗證了一條路徑:在不改動模型的前提下,透過更精密的壓縮演算法大幅降低推論成本

這條路如果成立,是所有在算力成本上苦苦掙扎的 AI 服務商都想走的路。

延伸閱讀:我需要養龍蝦嗎?一張圖判斷你在哪個AI階段,ChatGPT、n8n、Agent怎麼選一次搞懂

資料來源:Google Research BlogTechCrunch

本文初稿為AI編撰,整理.編輯/ 李先泰

關鍵字: #Google
往下滑看下一篇文章
數位時代 X 國泰金控 從百套系統上雲到 Cloud First:國泰如何把雲端變成AI成長引擎?
數位時代 X 國泰金控 從百套系統上雲到 Cloud First:國泰如何把雲端變成AI成長引擎?

2019年金融監理機關正式將雲端納入委外規範後,揭示金融業上雲時代來臨,國泰金控數數發中心成立雲端策略發展部,負責擬定集團上雲策略,並於2020年正式啟動7年集團雲端轉型計畫;在多數金融機構仍停留在單點遷移或IT現代化的現下,國泰金融集團在 2025 年即完成 100 套系統上雲,更將雲端轉型階段從 Cloud Ready、Cloud Adoption 推向 Cloud First,成為數據與人工智慧應用的關鍵引擎。

國泰金控資訊長|吳建興 James Wu
圖/ 數位時代

「百套系統上雲不僅僅是數字,更是讓國泰從『 IT 進化業務』邁向『 IT 驅動成長』的關鍵轉折。」國泰金控雲端策略發展部協理顏勝豪表示,上雲帶來的效益十分顯著,包括提升資源可用性與營運敏捷度、減輕 IT 維運負擔;同時,雲端業者多具備零碳排或綠能機房機制,亦有助於企業朝向 ESG 永續營運邁進。「金融上雲不是單純的現代化基礎設施或者是升級技術,而是為了換取速度與可靠度,讓集團可以加速創新腳步、彈性調配資源,以及培育所需人才與技能,為未來做最佳準備。」
為讓集團員工、金融同業以及有志上雲的夥伴可以進一步探討雲端轉型的各種可能,國泰金控舉辦雲端轉型成果發表會,會中除有集團子公司分享最新成果,三大公有雲平台業者也從不同技術視角共同探討在合規、資安與 AI 應用的可能。

七年、三階段,國泰金融集團將雲端內化為營運流程與創新引擎

國泰金控科技長|姚旭杰 Marcus Ya
圖/ 數位時代

為什麼國泰可以領先市場完成雲端轉型、數據與 AI 賦能業務?

顏勝豪認為,雲端轉型的起點不是直接遷移系統,而是從四個面向打底:應用系統盤點評估、雲端架構設計、雲端遷移藍圖規劃,以及組織治理框架建立,而這也是 Cloud Ready 階段最重要的事情。
「不同子公司有不同商業模式與節奏,若沒有共同語言與平台底座,上雲很容易各自為政。」顏勝豪表示,為讓所有員工可以齊步前行,國泰以雲端遷移方法論 Cathay 6R(註1)作為共同語言、用平台作為共同底座,讓轉型不只是技術選擇,而是集團行動。
完成單一系統的雲端遷移後,便進入 Cloud Adoption 階段。在這個階段中,要透過大規模遷移建立更成熟的上雲標準作業流程(SOP),透過 FinOps 機制控管與優化雲端營運成本,以及透過自動化與治理模型確認多雲環境與安全與維運穩定性,目標是將雲端內化為組織日常運營的一部分,進而邁向 Cloud First 階段:在合規前提下,新專案與系統升級預設在雲端環境開發,並善用雲原生優勢加速新產品功能開發速度。
「集團雲端策略只有一個核心原則:讓雲成為 AI 時代的成長引擎,而不是單純的基礎設施。」關於國泰的未來雲端布局,顏勝豪如是總結。

國泰金控 雲端策略發展部 協理|顏勝豪 Otto Yen
圖/ 數位時代

以雲端為 AI 資源引擎、發揮數據燃料價值,實現 AI 賦能業務應用

國泰不僅在2025年完成集團百套系統上雲,也啟動數據上雲計畫並為 GenAI 奠定基礎建設。
例如國泰金控實現數據上雲,打造資料湖倉與 GAIA 生態系統架構為 AI 賦能業務做準備:成立國泰風險聯防中心(CRC)攜手集團洗防人員強化風險控管與金融犯罪因應能力;釋出國泰員工 AI 助手–Agia–Beta
版,提供差勤、福利與權益、技術支援、職務職能與集團其他資訊等五大類別管理辦法等查詢服務;此外,亦推出集團數據共享平台、集團法規知識庫、 AI 評測中心等服務,更好發揮 Cloud First 與 AI 賦能業務應用的價值。
雲端是 AI 時代的關鍵底座、數據則是 AI 的燃料。顏勝豪指出,發展AI需要龐大的 GPU 算力,若自建 GPU 機房,不僅硬體設備昂貴、折舊速度快,光是散熱系統一年就高達兩、三千萬元的成本,若採取雲端資源,可以隨啟隨用,同時,大幅降低試錯成本。「當雲端打好基礎、AI成為能力模組,銀行、人壽、產險與證券的創新不再是單點突破,而是放大集團級綜效。」

國泰以 Cloud First + AI 持續領先市場、形塑未來樣貌

「雲端可以優化算力成本,資料則決定 AI 應用上限。」顏勝豪解釋,在 AI 新世代,AI 模型定調能力「下限」,集團子公司掌握的「獨特資料」則決定應用的「上限」,考量雲端有許多好用 AI 服務,唯有資料上雲才能發揮數據價值、用 AI 賦能集團各子公司業務。
例如國泰世華銀行將採取多公有雲策略,打造雲端智慧生態圈,並以現代化雲原生技術拓展應用場景;同時,運用 AI 與資料分析優化客戶服務體驗,並藉由跨雲整合機制支援多元業務模式,以充分發揮上雲效益。至於國泰產險,不僅在兩年半內完成13套核心系統上雲、優化營運流程,如以 Serverless 架構打造百萬級效果、萬元成本的短網址系統等,讓雲端成為產險驅動長期成長的核心引擎與標準配備。

國泰人壽則是透過雲端與 AI 滿足不同客戶需求,如以 AI Search 精準呈現關鍵字搜尋結果,讓客戶可以精準且快速的查找所需資料、大幅優化官網體驗與滿意度。至於國泰證券則是於2026年初推出「庫存管家」服務,以客戶持股為核心,應用 AI 技術打造個人化推播服務,協助投資人更有效率地掌握庫存狀況,提供更即時、系統化的投資管理體驗。
總的來說,國泰金控在集團的雲端轉型不僅是技術升級,更是思維革新,從百套系統上雲進展到 Cloud First 階段,可以預期在雲地基礎下,國泰將進一步引領 AI 時代變革,持續提升營運韌性與放大創新價值。

註1:Cathay 6R 國泰設計 Cathay 6R 雲端遷移方法論,將系統遷移方式依據上雲模式、系統開發成本分為 Rehost 、Replatform、Refactor、Rewrite、Replace 和 Retain 共6種遷移架構,並能對應到 IaaS、PaaS、SaaS 三種不同上雲模式。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓