「這個根本性的轉折終於出現了。」輝達(NVIDIA)執行長黃仁勳在2026年GTC的開幕演講說:「AI現在終於能夠真正做出有生產力的工作,因此推理的轉折點已經到來。」他表示AI現在不只是在訓練模型,而是越來越多時間花在推理(inference),也就是讓AI回答問題、寫程式或完成任務。
為搶攻這波推理需求,輝達推出新的低延遲推理加速器Groq 3 LPU,正式推出Vera CPU,並將其納入新一代AI基礎設施平台「Vera Rubin」,主打支援大規模AI工廠(AI Factory)部署。
黃仁勳指出,過去兩年裡,整體運算需求已經增加了大約100萬倍,再加上推理浪潮的來襲,他預計2027年Blackwell與Vera Rubin架構AI晶片的營收至少會達到一兆美元,並補充:「事實上,供應可能還會不足。我非常確定,運算需求會遠遠高於這個數字。」
什麼是LPU?為什麼要做推論就必須有它?
LPU(Language Processing Unit,語言處理單元)可以理解為一種專門為AI推理設計的處理器,主要目標是讓AI生成文字或回應時速度更快、延遲更低。為了強化推理能力,輝達在2025年底以200億美元(約為新台幣6,289億元)與AI晶片新創Groq達成「非獨家技術授權」,成為輝達有史以來規模最大的交易案。
黃仁勳於開幕演講宣布推出Groq 3 LPU,並表示該晶片由三星量產:「我們已經開始量產Groq晶片了,預計下半年,大概第三季左右開始出貨。」Groq 3 LPU採用高速SRAM記憶體架構,讓晶片在處理AI推理時能更快存取資料,並保持穩定的運算速度。
在新的運算架構中,GPU與LPU會分工合作。GPU負責需要大量計算能力的部分,例如處理長文本和模型中的注意力運算(attention,讓AI理解句子中哪些字詞比較重要的機制);LPU則專門處理需要快速回應的推理步驟,例如生成下一個文字或詞彙。透過這種分工,AI系統可以同時兼顧高運算效率與低延遲回應。
輝達表示,Vera Rubin平台在大型AI模型推理場景中,效能每兆瓦最高可提升約35倍;搭配Groq 3 LPU後,效能還可進一步提升。
再推出Vera CPU,7類晶片組成Vera Rubin平台
除了Groq 3 LPU,輝達也正式推出Vera CPU與Vera Rubin平台。Vera CPU是專門為AI代理(Agentic AI)與強化學習(reinforcement learning)等新型AI工作負載設計的處理器。根據輝達釋出資料,與傳統CPU相比,Vera在效率與速度上都有明顯提升,官方稱其運算效率可提高約2倍,運算速度也快約50%。
Vera CPU採用輝達自研的Olympus核心,共有88個核心,並搭配高頻寬記憶體架構,可提供最高約 1.2TB/s 的記憶體頻寬。
黃仁勳將Vera Rubin平台定義為代理型AI(agentic AI)的轉折點,「隨著Vera Rubin啟動,代理型AI(agentic AI)的轉折點已經到來,也將引發史上最大規模的 AI 基礎設施建設」。該平台由七顆晶片與五種機櫃組成,整合為一台AI超級電腦。
打開Vera Rubin組成架構:
1. Vera CPU
中央處理器(CPU),負責資料處理、系統控制與AI工作流程管理,例如協調AI代理執行任務或管理資料流。
2. Rubin GPU
圖形處理器(GPU),是整個AI系統的主要運算引擎,負責模型訓練與大規模推理運算。
3. NVLink Switch
高速互連晶片,用來連接大量GPU,讓它們能像一台大型電腦一樣一起運算。
4. ConnectX SuperNIC
高速網路卡(NIC),負責資料中心之間的高速資料傳輸。
5. BlueField DPU
資料處理單元(DPU),專門處理網路、儲存與安全等基礎工作,減少CPU與GPU負擔。
6. Spectrum Ethernet Switch
資料中心網路交換器,用來連接不同機櫃與伺服器。
7. Groq 3 LPU
語言處理單元(LPU),專門負責低延遲AI推理,例如快速生成文字或回應。這些晶片會被整合進不同類型的機櫃(rack),形成完整AI資料中心。
「輝達的基礎設施是我們持續推進AI前沿的重要基石。」OpenAI執行長奧特曼(Sam Altman)表示。「透過輝達的Vera Rubin,我們將能以超大規模運行更強大的模型與AI代理,並為數億名用戶提供更快速、更可靠的系統。」
輝達表示,基於 Vera Rubin的產品將從今年下半年開始透過合作夥伴提供。
下一代Feynman呢?
Feynman是Rubin之後的資料中心架構,預計2028年推出。黃仁勳本次首度釋出Feynman架構的CPU名稱,取名為Rosa,透露Feynman也會配有新一代的GPU,並且會與Groq團隊共同打造的新一代LPU LP40,他表示LP40將會是令人難以置信的全新技術。在互連技術方面,Feynman將首次在GPU互連架構中同時支援銅纜與CPO(Co-Packaged Optics,封裝光學)技術。
