由 NVIDIA 輝達(NASDAQ:NVDA)所主導、贊助支持之 2018 年 GPU Technology Comference (圖形處理器技術研討會,後簡稱 GTC),在美西時間 2018 年 3 月 26 日起於美國舊金山灣區南灣的聖荷西會議中心展開。第二天一早的重頭戲為台裔美籍、 NVIDIA 創辦人兼執行長黃仁勳(Jensen Huang)的主題演說。
延續去年開場的 I am ai 系列,NVIDIA 今年介紹更多深度學習的相關應用,例如醫療影像切片、智慧製造領域機器手臂控制、影像辨識用於撿貨、品質管制、機場或公眾場所影像辨識供安全或公眾利益需求等方面的應用,演講伊始,黃仁勳首先介紹 GPU 已經廣泛被設計、建築、影像工作室(studio)等領域,用在模擬運算實際影像,例如光影反射與呈現等領域。
從 1979 年發展,到早期只能夠在數小時計算、描繪出一張以假亂真的模擬圖片,到現在 GPU 已經可以支援解析度高達 4K,每秒 60 張的即時影像輸出。透過動作捕捉,電影工作者甚至可以在短時間模擬拍出即時場景影像呈現。
NVIDIA 也順勢推出以 Volta 為基礎的新一代顯示卡 Quadro GV100,除可支援 32GB 記憶體,也可透過 NVLINK 2.0 支援多 GPU,並最高可擴充至 64GB。以顯示卡為主體支援的圖像描繪領域應用非常廣泛,主要包含遊戲、媒體與娛樂、產品設計與建築等領域,每年透過 GPU 描繪的影像以數十億幀計算。
基於 Volta 微架構的硬體再升級!同時推出 NVSwitch 支援更多 GPU 平行運算
NVIDIA 延續去年推出的 Volta 微架構、引入為人工智慧特化的 Tensor Core 的 TESLA V100,在市場對人工智慧運算的強勁需求下,持續推升架構周遭的硬體效能。首先,由於市場對人工智慧運算模型的總處理資料量持續放大, Tesla V100 GPU 可以支援去年兩倍的記憶體容量達 32 GB,來緩解對記憶體有高度限制的高效能運算。除 DGX 系統可立即全面支援,主要的伺服器生產商 IBM、Supermicro、HPE、聯想、Cray 與 Tyan 預計也將在 2018 年 Q2 推出相應產品,甲骨文雲端基礎設施(Oracle Cloud Infrastructure)也預計將在下半年推出相應服務。
NVIDIA 也針對支援 CPU 分配 GPU 工作,並讓 GPU 與 GPU 間可以聯絡,擁有 300 GB/s 傳輸速度的 NVLink 2.0 協定(主要支援廠商有 IBM Power 與 NVIDIA GPU)進行升級。其方法並不僅是在協定上增加更多頻寬,而是模仿網際網路或主機上常見的多匯流排交換解決方案,提供一個新的選項:交換器(Switch)。很沒創意,讓人一看命名就知道在幹什麼的 NVSwitch 延伸拓展了 NVLink 協定的應用。以台積電 12 奈米 FFN 製程工藝的新交換器裝置,容許 16 顆 GPU 以 2.4 TB/s 的速度同時進行資料交換,因此允許開發者在伺服器上平行訓練更多神經網絡。目前擁有 82 萬開發者,相較去年成長接近一倍的 CUDA 運算平台也隨硬體同步更新支援 NVSwitch。
輝達強調,去年結合 Volta 架構,針對深度學習、人工智慧應用推出的 DGX 系列大獲好評,因此推出主要供資料中心使用的 DGX-2,透過 NVSwitch 搭載 16 組 TESLA V100(恰巧是 DGX 1 的兩倍)。在 NVIDIA 的技術報告中,針對 Facebook Research 所推出,使用以列對列學習、基於 Torch 架構的神經機器翻譯(英法、英德、英文對羅馬尼亞文翻譯)工具集 fairseq 上,甚至可以測得 10 倍於 DGX-1 的效能表現。據此,今年 NVIDIA 自身的 DGX 產品線將包含 DGX-2(定價 399,000 美金,約合 1200 萬台幣)、DGX-1(定價:149,000 美金) 與 DGX Station(定價:68,000 美金)。相較於透過純 CPU 主機構建資料中心而言,黃仁勳不斷強調:「買越多(GPU),省越多!(The more you buy, the more you save!)」
軟體跟上!主流雲端運算服務皆支援,搭配綿密佈局、方便各類開發者生態系
讓輝達足以跨雲端平台與資料中心,建立 GPU as a service (GPUaaS)的 NVIDIA GPU Cloud 也在近日做出更新,除全面支援 kubernetes 外,也正式橫跨 AWS(Amazon Web Service)、GCP(Google Cloud Platform)、阿里雲與 Oracle 雲。支援更多深度學習、高效能運算等框架。
黃仁勳發明一套 PLASTER 理論,用以評估深度學習或機器學習系統整合是否足以支援商業應用。包含:
- 可程式化能力,Program ability
- 服務反應速度,Latency
- 模型應用精確度,Accuracy
- 神經網絡模型大小,Size
- 生產總量,在此指資料中心運算力,Throughput
- 能量消耗程度,Energy Efficiency
- 深度/機器學習模型的訓練、推論、佈署速度,Rate of Learning
黃仁勳認為,人工智慧應用中,訓練模型所需要的僅僅是運算力,但需要佈署模型快速運算的推論端最顯複雜。雖然有許多企業強調可透過 FPGA 或特製 ASIC 來加速特定深度或機器學習應用,但黃仁勳強調,資料中心非常複雜,一點都不簡單。對大型資料中心,好開發易維護才是重點,是否容易程式化、方便開發者快速佈署,是人工智慧應用的關鍵。
NVIDIA 今日也同步宣布可在資料中心、嵌入式系統與車用終端運作,可快速最佳化、驗證與佈署 多GPU 神經網絡訓練的 TensorRT 4 的更新;除與 Google 合作,整合 TensorFlow 1.7 之外(相比未最佳化 GPU 運算可高達 8 倍速),也家務更多深度學習推論應用領域,例如神經機器翻譯(neural machine translation)、自動語音辨識(automatic speec recognition)、語音合成(speech synthesis)與推薦系統(recommendation systems)等。
為了方便神經網絡訓練的資料快速交換,NVIDIA 也與 Amazon(MXNet)、Facebook(Caffe 2) 與微軟合作,TensorRT 4 也宣布支援 ONNX 框架,幫助使用 MXNet、PyTorch、Caffe 2 等主流深度學習開發框架的使用者可以快速交換模型訓練數據。透過 TensorRT 4,開發者也可以快速將最新的深度學習運算應用推論,以 16 位元半精確度(FP16)、或8 位元整數(INT8)精度,快速佈署至終端自動駕駛系統,如 NVIDIA DRIVE 或 NVIDIA Jetson 上。