全都為了人工智慧的 NVIDIA
專題故事

從遊戲產業裡釣到 GPU 商機大魚的 NVIDIA ,因為意外的佈局捕獲新的重要商業應用:人工智慧。從無人機、機器人、自動駕駛乃至於圖像辨識、輔助診斷醫療、作畫與作曲等。如今深度學習的商業應用看似無所不在,卻也等 NVIDIA 更積極在每一個端點佈局,就是要讓你輕易取得 GPU 提供的豐沛運算資源。

1 NVIDIA 黃仁勳:人工智慧需求策動了GPU運算革命

James Huang 攝影
近年人工智慧不斷在公眾目光中出現,深度學習的世代彷彿立刻來臨。NVIDIA 創辦人黃仁勳,如今被稱為人工智慧教父;從他的眼中,人工智慧將帶來什麼樣的運算革命,NVIDIA又將往哪裡去?

人工智慧可以是什麼?NVIDIA 2017 年的主軸形象廣告:「我就是人工智慧(I am AI)」,AI形容自己是夢想家,協助蘇黎世聯邦理工學院的太空學者進行光學辨識與數據分析探索未知宇宙。AI也說自己是治療師,協助醫師用一滴血測出白血病患者。AI同時也是保護者,協助 COTSBot 在海底辨識,並滅除破壞珊瑚的海星。AI也像是個助手,協助 Fellow 的機器人 NAVii 幫助人們在賣場挑選、找到自己所需要的物品。AI也可能是作曲家,你所聽到的廣告配樂事實上就是 AI 做的。

由 NVIDIA 輝達(NASDAQ:NVDA)所主導、贊助支持之 2017 年 GPU Technology Comference (圖形處理器技術研討會,後簡稱 GTC),在美西時間 2017 年 5 月 8 日起於美國舊金山灣區南灣的聖荷西會議中心展開。第三天一早的重頭戲為台裔美籍、 NVIDIA 創辦人兼執行長黃仁勳(Jensen Huang)的主題演說:「為人工智慧革命提供動力(Powering the AI revolution)」。(編按:與其隨後在台北 Computex 2017 的演說同題名,內容則分別稍有增刪)

GPU Technology Conference 2017 入口現場
James Huang 攝影

黃仁勳在 2017 GTC大會演講的重點,主要都環繞在人工智慧的一切。演講伊始,黃仁勳就以輕鬆的口吻介紹 CPU (電腦處理器)核心在摩爾定律(Moore's Law)的描述下, 40 年來的成長限制。黃仁勳話風一轉,提及 NVIDIA 在 1993 年創立後,製作出 GPU (圖形處理器)產品,並在 2007 年左右,發現 GPU 相對於 CPU 的演算特別適合用來大量平行運算數學運算,因此 NVIDIA 推出 CUDA 框架,以基礎程式語言 C 的延伸集,透過 CPU 作為指導 GPU 分拆平行運算的架構,來加速特殊程式需求的演算時間。

黃仁勳引用了史丹佛大學校長 John L. Hennessy 在校內課程介紹並引用其研究處理器效能成長的數據指出,GPU 的演算效能將以每年 1.5 倍速成長,相對於 CPU 每年 1.1 倍速的成長幅度,到 2025 年將達 1000 倍的差距。「GPU 將比 CPU 對於特定領域的演算擁有更大優勢!」黃仁勳強調。

NVIDIA 創辦人黃仁勳解釋摩爾定律之後的生活
James Huang 攝影

程式,其實是一大堆由程式設計師所寫好的工作流程,電腦必須按照工作流程規則執行工作。電腦科學家很快發現一個電腦一次只能執行一個指令是很慢的事,人類最好能讓電腦同時執行很多事,因此我們開始在應用層次至演算層次把工作流程拆開,使之可以平行執行。由於科學家與工程師、甚至藝術家(讀者不妨先想像動畫、遊戲與電影等領域之創作)對於演算法與應用程式的需求,我們對於軟體平行運算的要求越來越高,也帶動了 GPU 運算的需求出現與成長。(所以最早做 GPU 為了遊戲效果一點都不意外)

從 GPU 演算帶動人工智慧發展

隨著人類對演算的需求因為大數據、機器學習與人工智慧等應用越來越高,我們發現這些領域的演算也都可以依賴 GPU 執行,造就人們越來越重視 GPU 演算。黃仁勳提及,對電腦科學家而言,仰賴GPU加速的演算至少可以分成四個層次,從基礎架構(Architecture)、系統(System)、演算法(Alorithm)至應用程式(Application),NVIDIA是從下至上(改進演算架構,並提供更好、更快的系統與演算法生態系)、乃至從上至下(隨著應用程式的需求,改進演算法、系統甚至架構),往復不斷地改進、強化每一層次對 GPU 運算的需求,甚至有人稱 NVIDIA 對於 GPU 演算的精進達成了摩爾定律平方的效果。

NVIDIA 創辦人黃仁勳解釋GPU運算的成長動能
James Huang 攝影

GPU 有多重要? 8 年前 NVIDIA 第一次辦 GTC,參加者人數剛破千,會場就在 2017 年 GTC 舉辦地聖荷西會議中心斜對面的 Fairmont 飯店。這個會議每年的參加者數以 30 % 成長,今年已經有超過 7000 人與會。黃仁勳並引用內部數字,說明 11 年來開發者數成長超過 110 倍,目前已經有超過 50 萬人註冊成為 GPU 的開發者,2016 年下載 CUDA 與相關的 SDK 更突破百萬次以上。

GPU 應用轉變幅度有多大?第一年的 GTC,拍攝星際大戰成名的製作公司盧卡斯影業的技術長,首次在此揭露如何運用電腦運算產生真實火焰的影像。但 2017 年的 GTC,雖有 10 家的 VR 公司直接拿成品掩飾準備搶奪由高盛、富達、軟銀與其他公司所提供共六個每名 150 萬美金的投資現金,也有 20 家 VR 新創在會場裡直接做展示。但在全會場共四天近 600 場演說裡,有 60% 都與人工智慧、深度學習等主題與工具有關、全球前 15 大的科技公司(如 IBM、Google、Microsoft、Amazon 等)全部都參加 GTC,更有高達 80 家的 AI 新創團隊群聚於此。

現代商用人工智慧於 2012 年後大規模爆發

今日所談的人工智慧,往往與機器學習或深度學習等字眼混合運用,事實上,人工智慧比較接近大眾所熟悉、能夠掌握理解的字眼,雖然目前字詞上運用的定義,往往讓大眾想像早超越實際技術討論的範圍,但目前整體來說仍大都是這類技術應用的結晶。人工智慧的發展曾經在歷史上多次因為運算瓶頸而停滯,最近的快速進展主因卻為大量實體世界的數位化資料累積總成本快速降低,與運算速度的快速提升,其中後者與 GPU 運算發展緊密相連。

NVIDIA 創辦人黃仁勳解釋摩爾定律
James Huang 攝影

從在人工智慧研究知名的瑞士人工智慧實驗室 IDSIA (Istituto Dalle Molle di Studi sull'Intelligenza Artificiale) ,發現在神經網絡的研究上可以透過 GPU 運算來進行加速開始(透過 CUDA 對卷積神經網絡,Convolutional Neural Network, CNN 的運算進行最佳化);到多倫多大學的 Alex Krizhevsky 用 GPU 加速自己透過 CNN 模型改進所做出的 AlexNet 在 2012 年圖形分辨的知名比賽 ImageNet 中獲勝。人工智慧或深度學習的應用終於在商業上有了劇烈爆發性的應用與成長。Google Photo 能夠輕易分辨出人、貓、海邊等圖片資訊、NVIDIA如今與許多車廠合作改裝汽車實驗自動駕駛(Autonumous Driving)的可能性、AlphaGo在圍棋比賽中打敗人類、跨語言翻譯應用乃至自然語言處理的人工智慧助理等。

James Huang 攝影

人工智慧的學術研究相關進展也在 2012 年後大規模爆發。2016 年參加人工智慧相關的學術研討會(NIPS、ICML、CVPR 與 ICLR)人數較 2014 年成長兩倍來到 13,000 人。(在電腦科學的學術領域,由於學術研討會論文審查、發表與交流速度較期刊更快,許多前瞻研究都追求研討會發表更甚於期刊發表,因此在相關領域觀察各研討會人員參加數、投稿量與文章錄取率,往往遠比學術期刊更有應用價值)Udacity 上已經有超過 20000 人修過人工智慧相關的學程,矽谷在人工智慧新創方面的投資在四年間則增加了 9 倍。

NVIDIA 在人工智慧的一系列佈局

本次 GTC NVIDIA 主要為以下六個領域超過 1300 家 AI 新創合作,涵蓋:健康、物聯網與製造、零售與電子零售業、自動駕駛、金融、網路應用(Cyber)、建築、工程與營建(AEC, Architecture, Engineering and Construction)、安全與智慧影像分析(IVA, Intelligent Video Analysis)、平台與API、資料管理、開發平台、商業智慧與視覺化。

以下,《數位時代》將為你全面剖析,整理 NVIDIA 在 GTC、Computex 所宣布的一連串新產品與服務,並分別針對不同服務細節進行追索訪問,分別看 NVIDIA 在人工智慧領域中,關於硬體、軟體與雲和汽車與機器人市場的深度佈局。

每日精選科技圈重要消息

圖形處理器
GPU(Graphics Processing Unit)
「GPU」又稱顯示核心、視覺處理器、顯示晶片,是一種專門在個人電腦、遊戲機和一些行動裝置上執行繪圖運算工作的微處理器。圖形處理器是Nvidia在1999年首先提出的概念,在此之前,電腦中處理影像輸出的顯示晶片,通常很少被視為是一個獨立的運算單元。圖形處理器使顯示卡减少了對中央處理器(CPU)的依賴,並分擔了部分原本是由中央處理器所擔當的工作,尤其是在進行3D繪圖運算時,功效更加明顯。 (來源: NVIDIA維基百科 )

2 秀肌肉!更小、更快,從端到端覆蓋的 NVIDIA 硬體策略

James Huang 攝影
從遊戲應用、整合、全新人工智慧運算用微架構 Volta 晶片,到基於 Volta 的一系列主機與資料中心解決方案。再到開發板與自動駕駛解決方案與開源計畫。NVIDIA 這次的硬體策略簡直鋪天蓋地而來。

從遊戲應用走向人工智慧

NVIDIA 在 GPU 領域有多厲害?黃仁勳說,2016 年,電動遊戲是一個超過 1000 億美金市值的產業,NVIDIA 出貨超過 1,000 萬個 GeForce GTX 相關的裝置,整個市場安裝 GeForce GTX 至少超過 2 億次。如果根據微軟 2017 財年第二季報告,大約是 XBox Live 每月活躍人數 5,500 的四倍之多。別忘記!許多 GPU 裝置同時也是使用者進入網路世界的第一裝置。

黃仁勳在 COMPUTEX 2017 的開幕演說中進一步表示,如果沒有 NVIDIA 台灣合作伙伴的全力支持,全球的遊戲玩家不可能可以這麼順利地得到完整的遊戲平台,目前,這個。至少包含有 GeForce GTX 旗下將進一步在 Computex 2017 全面更新至少 40 款產品線,包含:全新的遊戲顯示卡、VR背包、遊戲主機、顯示器與遊戲筆電。

NVIDIA 創辦人黃仁勳手持 ASUS ROG 筆電現場演示即時運算效能,黃仁勳笑稱這款電腦比那款稱之為 Pro 的電腦(意指 Mac Book Pro)效能還快 60%。
James Huang 攝影

GeForce GTX 產品線如此亮眼,但每年消費者總是希望裝置可以更小、更輕更薄,運算效能卻可以逐步成長。NVIDIA 選擇直接與製造廠合作,讓雙方的工程師可以彼此直接合作工作,將原本 51mm 的架構,縮小為 18 mm。重量減輕一半(僅剩 5 磅),並帶有三倍效能。NVIDIA 將新的設計稱為 MAX-Q。在 Computex 2017 現場,還直接以與華碩合作的筆電展示了 BANDAI 年底才要上市的 Project Cars 2。

Max-Q 可說是 NVIDIA 與電腦製造廠系統合作、整合設計的結晶。其中涉及了硬體設計整合,包含散熱設計與使用低壓電源並調整線路設計,並透過軟硬體同時提升並改善 GPU 的效能與功耗。晶片商與製造商通力合作改善系統整合設計是少見的業界合作,這也表示 NVIDIA 正在加深與遊戲領域相關的製造合作伙伴關係。

NVIDIA 創辦人黃仁勳於 Computex 2017 手持 ASUS ROG 系列筆電比較整合前後差異
James Huang 攝影

30 億美元的結晶!深度學習運算的暴力美學:Volta

如果說 NVIDIA 於 2016 年首次推出以 Pascal 微架構為主的 TESLA P100 晶片,是基於人工智慧與深度學習應用的第一次重大硬體策略轉型,則你可以將黃仁勳於 2017 年 5 月宣布的 TESLA V100 視為 NVIDIA 這家公司更積極在人工智慧產業方向上耕耘的第二發秘密武器。確立了 GPU 除了圖形演算、科學演算,並找到願意為這樣演算需求付費的基礎用途產業後,NVIDIA 需要為 GPU 這樣的運算結構找尋下一個應用成長引擎。

NVIDIA 創辦人黃仁勳展示 Volta 微架構晶片
James Huang 攝影

繼 2016 年 GTC ,NVIDIA 推出了 GPU 架構 Pascal 之後,NVIDIA 於今年再度更新了其最新一代 GPU 運算微架構( NVIDIA microarchitecture)Volta。如果讀者對 Intel CPU 微架構的歷史熟悉,對 NVIDIA 現今的微架構命名策略大概也不會感到太陌生,兩者對微架構發展與推進有類似的代號包裝,並分別對之推出對應的架構規範。

NVIDIA 微架構發表時間、製程工藝與常見商用產品名
NVIDIA代號 推出時間 晶圓製程規格 商用產品號
Tesla 2006年 90 nm, 80 nm, 65 nm, and 55 nm GeForce 8, 9, 100, 200, 300 系列
Fermi 2010年4月 40 nm and 28 nm GeForce 400, 500 系列
Kepler 2012年4月 28 nm GeForce 600 與部分 700系列
Maxwell 2014年2月 28 nm 晚期的 GeForce 700 與 800, 900 系列
Pascal 2016年4月 14 nm and 16 nm Tesla P100 晶片(GP100)、GeForce 1000 series
Volta 2017年5月 12 nm Tesla V100 晶片
《數位時代》整理

首次引入 Tensor Core 的 Volta 微架構

黃仁勳強調,為了新一代的 GPU 運算架構,NVIDIA 投入了近 5,000 名工程師、為期三年,約 30 億美金的研發費用。這顆應用台積電 12 奈米 FFN 製程的 GPU,整合了相當於 210 億顆電晶體的 TESLA V100 ,相當於 5120 顆 CUDA 核心,擁有 120 TFLOPS的運算能力。撇開當然更快、更大的 HBM2 記憶體通道與攸關 聯絡 GPU 平行運算能力,擁有 300 GB/s 傳輸速度的 NVLink 2.0 不談,這次 Volta 架構最大的變化,來自於 GPU 中 Streaming Multiprocessor (SM)架構的重新設計。

NVIDIA Volta 微架構晶片
James Huang 攝影

Streaming Multiprocessor, SM 是 NVidia GPU 設計得以進行分散式運算 CUDA 的重要設計。原本每個 multiprocessors 就包含有若干個 stream processor ,每個 stream processor 都包含一個 fused-multiply-add, FMA 單元,每個一次(per clock)可以進行一次加法與一次乘法。Volta 架構重新設計了 SM,除了改善由 4 個 L0 所組成為一個 L1 的SM中,每個 L0 內用於整數運算(16 * INT)與浮點運算(8 * FP64 與 16 * FP32 )的單位。並在每個 L0 裡面引入了 2 個 Tensor Core。

NVIDIA 說明 GPU 的 SM 中 Tensor Core 核心加速的 4*4*4 矩陣運算演示
NVIDIA 開發者部落格

Tensor 其實指的就是方塊,魔術方塊或貨櫃堆疊其實都是方塊的一種。幾乎所有高維度的數學運算都是各種矩陣相乘、相加而成,如果可以透過加速矩陣運算,則幾乎確定可以有效加速所有高維度的數學運算。NVidia 這次設計的 Tensor Core 是一個特化、專門進行 444 矩陣運算的運算單位,可以將原本數學運算需求中 444 的運算需求一次做完,因此可將原本需要 64 次運算,加上暫存共約 80 次的步驟減至 7 次,運算速率接近原本所需的 12 倍。

NVIDIA TESLA V100
James Huang 攝影

所以,雖可見引入 Volta 架構的 TESLA V100 事實上在 SM 數並沒有增加太多,CUDA 核心數增加也不到一倍,但透過增加在 80 個 SM 裡,共 640 個 Tensor Core 可以直接增加 120 個 TFLOPS,直接達成加速浮點運算的目的。藉由改善原本每個 SM 中浮點運算核心(FP32/FP64)的效能,加上運用台積電 12 奈米 FFN 生產技術,在每個標準單位塞入更多的電晶體,Volta 架構就可以實現同樣瓦數下搾出更多運算效能的成績。NVIDIA 也透過 CUDA 9 直接提供各種不同深度學習運算架構例如 Caffe 2 或 MXNet 的使用者可以直接呼叫 CUDA,拆解高維矩陣成低維演算並拼接。

這樣設計所帶來的好處是 Tensor Core 可以直接對固定需要高維運算的運算需求進行加速,但一個 SM 應該配置幾個 Tensor Core 就是實際運算應用所會面臨的第一個問題。Tensor Core 勢必佔用 GPU 設計中,原本的整數運算與浮點運算器空間,將原本空間所可以帶來的計算量,換成多少的 Tensor Core 對大型演算所帶來的效益仍有待進一步驗證(目前 NVIDIA 的例子主要都針對容易降維的某些 CNN 進行驗證),在 GPU 內應該有 Tensor Core 的專屬空間或進一步將之分開、Tensor Core 與傳統整數運算與浮點運算器比例配置為何,並每個 Tensor Core 為什麼只選擇 444 作為加速基礎單元,都有賴更多案例,來進一步應用來驗證並最佳化相關的運算需求。

以 TESLA V100,推出硬體 DGX-1V 與 DGX Station

NVIDIA 也不意外地更新了 2016 年宣布,搭載 TESLA P100 的 DGX-1 系列。DGX-1 系列是 NVIDIA 針對資料中心級所需處理深度學習、人工智慧等運算所首次推出的主機。2016年首次推出時,DGX-11搭載 8 張 Tesla P100 的計算卡,共有 28672 個 CUDA core。相當於傳統資料中心250台左右的主機運算量。

NVIDIA 創辦人黃仁勳展示 Volta 微架構晶片所成的 TESLA V100
James Huang 攝影

本次基於 Volta 所推出的 DGX-1(或稱 DGX-1V),同樣搭載 8 組 TESLA V100,透過更多的 CUDA 核心,更快的平行傳輸資料能力 (NVLink 2.0),帶來更驚人的運算能力。在 NVIDIA 針對 DGX-1V 的技術報告中,以微軟的 ResNet 做實驗甚至可將原本需要 739 小時訓練的資料運算,縮短至不到 8 小時以內完成。DGX-1V 主要提供給資料中心,要價約 14.9 萬美金。NVIDIA 也為小型新創公司或部分公司的創新部門提供小型的 AI 用計算電腦 DGX-Station,內建 4 張 TESLA V100 的小型水冷深度學習電腦,要價約 6.9 萬美金。

NVIDIA DGX Station
NVIDIA 開發者部落格

NVIDIA 也將 TESLA V100 供應給 Cisco、DELL、HPE、IBM 與 LENOVO 推出相應的計算產品。同時也和微軟合作,透過將一群 DGX 系列合併,提供完整資料中心級 AI 雲計算服務 HGX-1,NVIDIA 也在 Computex 宣布將與鴻海、英業達、廣達與緯創合作,為這個年化成長三倍的市場提供 HGX 解決方案。

開發板與車,NVIDIA 也在人工智慧需求的第一線提供解決方案

熟知 NVIDIA 的讀者一定對於 NVIDIA 推出的某些特殊開發套件並不陌生,例如從 Tegra 1 時期就開始的 Jetson 系列,如今,Jetson 也隨著核心的演進一路從 Jetson TK1 走道 Jetson TX1 或最新的 Jetson TX2,一塊小如信用卡大小,僅需電池即可供電的開發套件,可以容許使用者在終端應用(例如無人機、小型遙控車等)上進行神經網路、影像便是、導航或語音辨識的獨立計算。

NVIDIA 與 Audi 合作開發自動駕駛
James Huang 攝影

NVIDIA 也推出了 Drive PX 系列(目前最新版本為 NVIDIA Drive PX 2),提供車廠整合開發的自動駕駛計算硬體。Drive PX 耗費電量極低,可自動處理高速公路自動駕駛,並透過深度神經網路處理多相機與感應器所收集來的資料,在 HD 地圖上定位規劃安全路線達成自動巡航功能。對車廠來說,NVIDIA 所提供的方案除了硬體還包含稱做 NVIDIA Drivework 的軟體開發套件(SDK),可以幫助車廠快速開發自動駕駛功能。

在 2016 年宣布砸下 10 億美金投資在自動駕駛領域的 TOYOTA,在密西根州 Ann Anbor、加州 Palo Alto 與麻州 Cambridge 等地的 TOYOTA 研究所(TRI, TOYOTA Research Insititue)與測試基地,成立稱為「守護天使(Guardian Angel)」自動駕駛系統的開發計畫,最近也宣布將採用 NVIDIA Drive PX 系列作為開發選項。

NVIDIA 創辦人黃仁勳宣布 TOYOTA 將選用 NVIDIA DRIVE PX 作為其自動駕駛配件
James Huang 攝影

NVIDIA 表示,要完成自動駕駛任務,生產整車的車廠事實上有非常多系統需要整合。NVIDIA 所提供的解決方案主要幫助車商直接解決感應器接收資訊、定位與運算的問題,其他各車設定的部分則有賴與車廠共同合作來解決問題。也因此,NVIDIA 目前與 Audi、TOYOTA 等每間遍佈全球的車廠合作模式都不一樣,不是僅提供 Drive PX 的解決方案而已。

黃仁勳也提及 NVIDIA Drive PX 的下一階段是可以達到自動駕駛等級 4/5 的 Drive PX Xavier,Xavier 是基於領域特化的微架構的整合產品,整合板上包含有傳統 CPU、Volta GPU與特殊的深度學習加速器(Deep Learning Accelerator, DLA)。

NVIDIA 創辦人黃仁勳宣布將開源 DRIVE PX 下的 Xavier DLA,後圖為 DLA 硬體架構
James Huang 攝影

黃仁勳直接在 2017 年 GTC 宣布將在 7 月開源 Xavier DLA ,是一個值得關注的話題。通常由於硬體開發週期通常長於軟體,硬體(尤其是晶片)的開源失敗率很高(回頭看看 Open RISC),NVIDIA 選在此時開源一個特規(整合 ARM、GPU 與 DLA 的方案)但對開發者來說還算不難理解的設計,NVIDIA 自身給出的理由是 NVIDIA 明白硬體不可能由一個公司獨力完成,需要業界更多伙伴同行。是否表示 NVIDIA 已經有了新的合作伙伴,又預備投入多少資源在這個開源專案上,都有賴 NVIDIA 在 7 月公布更多詳細開源資訊後有更多討論。

每日精選科技圈重要消息

FLOPS
每秒浮點運算次數
處理器在每秒所執行的浮點運算次數(Floating-point operations per second, FLOPS),常被用來估算處理器效能,尤其是在使用到大量浮點運算的計算領域中。大部分的處理器都有浮點運算器,用以執行比整數運算更耗時的浮點運算。通常浮點運算量測就是測量浮點運算器的執行速度。 (來源: )

3 雲佈局!GPU AAS 佈滿全球公有雲,並結合 Docker 推出 GPU Cloud

NVIDIA 開發者部落格
透過 Docker 將 CUDA 與深度學習開發框架整合還不夠,NVIDIA 乾脆自己推出佈署工具,協助開發者快速跨平台佈署深度學習運算服務。NVIDIA 這次要讓開發者沒理由碰不到GPU運算資源。

推出 CUDA 9 進一步深耕深度學習社群

對應著此次 TESLA V100 的推出,NVIDIA 的 GPU 解決方案其實已經因為在架構上引入 Tensor Core 而產生巨幅變化,因應著 Google 自行提出了 TPU 架構,NVIDIA 除了推出引入 Tensor Core 的 Volta 微架構外,也進一步隨著微架構產品更新 CUDA ,提供市場主流的深度學習開發者套件最佳化環境。(在 2017 年 GTC,包含 Caffe 2、Microsoft Cognative Toolkit、mxnet、PyTorch、TensorFlow 與 theano 等主流深度學習開發框架都有教學或分享應用議程)

NVIDIA 創辦人黃仁勳解說 NVIDIA 深度學習 Docker 架構
James Huang 攝影

對 NVIDIA 來說,每一個目前主流發展中的深度學習框架都各有優缺點,也幾乎各有擁護者。作為提供主要運算資源的 NVIDIA 方,希望能夠提供給所有開發者一個良好、方便的環境,讓開發者可以輕鬆做深度學習訓練模型的開發工作。CUDA 9 已經針對深度學習目前的主流開發者套件,如 Caffe 2、 Microsoft Cognative Toolkit、mxnet、PyTorch、TensorFlow 與 theano 在 Volta 架構下,因應引入的 Tensor Core 的最佳化運算做了調整。

GPU AAS,要讓 GPU 雲端計算無所不在

對於應用人工智慧或深度學習來說有兩個端點,雲端與終端,在硬體篇中,我們已經見識到 NVIDIA 做為一家硬體起家的公司,在兩端之間分別下了多少功夫與努力。為了解決人工智慧或深度學習,方便運算應用無所不在,NVIDIA 除了與 CISCO、DELL、HPE、IBM 與 Lenovo 等大廠合作推出相應的 GPU 系統外,也必須同時解決開發框架與運算資源取得的難題。

NVIDIA 發表包含深度學習架構的 NV docker
NVIDIA 開發者部落格

NVIDIA 因此針對個別開發者提出了針對深度學習運算環境難以移機異地運算的問題,提出了 NV Docker 解決方案。NVIDIA 將深度學習開發框架(如 Caffe 2)與 CUDA Toolkit 和開發者所撰寫的運算程式、資料包裝成完整容器(Container)後,即可在不同運算環境下移轉,理論上可以方便開發者快速移轉運算環境。(編按:此時資料大小與網路速度,其實可能會是移轉順利與否的主要關鍵。)

NVIDIA 也與全球主流的公有雲計算廠商合作,在阿里雲、AWS(Amazon)、GCP(Google)、IBM Bluemix、Microsoft Azure 與百度雲等都建有 GPU 加速的高效能運算服務。除了直接佈署 GPU 配合開發框架來達成深度學習的運算環境外,也可以透過 NV Docker 來做轉移。

NVIDIA GPU Cloud 架構
NVIDIA 開發者部落格

NVIDIA 甚至研發了一套軟體佈署運算工具 NVIDIA GPU Cloud,可以透過介面簡單選擇所需的資料、模型程式、運算框架、運算資源等,透過按鈕就可以完成佈署。預計七月 Beta 公眾測試!

每日精選科技圈重要消息

4 NVIDIA創辦人黃仁勳:機器人是終極的AI

NVIDIA
「人類要如何讓機器人學習?」這是這領域的研發人員遇到的重要大挑戰,因為機器人在學會如何恰當執行一件任務前,就會毀壞所有物品了。

「機器人是終極的AI。」NVIDIA創辦人黃仁勳今日在Computex活動中發表主題演說。

NVIDIA創辦人黃仁勳點出現行機器人研發最大的挑戰:如何讓機器人學習卻又不搗亂?(資料照片)
NVIDIA提供

黃仁勳點出現行機器人研發最大的挑戰是如何讓機器人學習卻又不搗亂?

人類要如何讓機器人學習?這是這領域的研發人員遇到的重大挑戰,因為「機器人在學會如何恰當執行一件任務前,就會毀壞所有物品了。」

人類可以很容易透過直覺和運動技巧做到很多事,但這些對於機器人來說都是非常複雜難以達成的程式運作。

黃仁勳給了以上問題一個答案:在「虛擬世界」裡執行。

ISAAC機器人平台

NVIDIA為機器人創造了一個平台ISAAC。

平台中有一個AI超級電腦Jetson TX2,這個超級電腦專為深度學習和平行運算設計,適合用在無人機與機器人這種,以「電池」供電的自動裝置中,「功能相當於平台高階PC,但功耗卻和平板電腦一樣。」黃仁勳說。

其次為軟體堆疊Astro AV,為機器人和無人機等裝置提供自動駕駛導航功能。

再者是開發虛擬實驗室,這個實驗室讓機器人可以在其中學習如何執行任務,直到完全勝任為止,機器在這裡就和真實世界一樣,只是時間過得飛快。

富士康與廣達等公司將採用NVIDIA HGX架構開發伺服器

另外,黃仁勳也親口宣布啟動包括富士康、英業達、廣達以及緯創等伺服器廠商的夥伴合作計畫。這些廠商將使用HGX架構開發伺服器。

HGX架構是NVIDIA與微軟共同創造一個大規模的加速器名稱。為了因應超大規模雲端環境獨特的高效能、效率以及廣大規模的需求。

HGX架構除了能基於作業負載需求靈活進行調整外,還能針對高效能運算、深度學習訓練和推論的需要,搭配各種GPU與CPU組合。

在NVIDIA HGX合作夥伴計畫中,將提供ODM代工廠使用NVIDIA HGX架構、NVIDIA GPU 運算技術以及設計準則等資源。

每日精選科技圈重要消息

延伸閱讀
10 %
黃仁勳指出,摩爾定律在30年的進展後已經停止,如今就算電晶體持續以每年50%的速度成長,CPU效能僅能成長10%。
圖形處理器
GPU(Graphics Processing Unit)
「GPU」又稱顯示核心、視覺處理器、顯示晶片,是一種專門在個人電腦、遊戲機和一些行動裝置上執行繪圖運算工作的微處理器。圖形處理器是Nvidia在1999年首先提出的概念,在此之前,電腦中處理影像輸出的顯示晶片,通常很少被視為是一個獨立的運算單元。圖形處理器使顯示卡减少了對中央處理器(CPU)的依賴,並分擔了部分原本是由中央處理器所擔當的工作,尤其是在進行3D繪圖運算時,功效更加明顯。 (來源: NVIDIA維基百科 )

5 在人工智慧與深度學習的商業市場上,NVIDIA 目前沒有敵手

James Huang 攝影
創造GPU市場的 NVIDIA,以電競產業成功存活。無心插柳跨足 GPU 計算,卻因贊助比賽而開始全新商業領域。如今的 NVIDIA,正如黃仁勳那第三個剛跨過青春期的孩子,正往人工智慧市場野蠻生長。

讀者要如何理解 NVIDIA 這家公司?過去多數人知道這家公司多半來自於遊戲市場。只要要玩電腦遊戲,電腦多半需要配備一張可以算圖、加速的顯示卡。這張卡的品牌商眾多,但背後技術多半來自 ATi(目前已經被 AMD 合併)、NVIDIA,這是許多人認識 NVIDIA 的開始。

NVIDIA 創辦人黃仁勳手持 ASUS ROG 筆電現場演示即時運算效能,黃仁勳笑稱這款電腦比那款稱之為 Pro 的電腦(意指 Mac Book Pro)效能還快 60%。
James Huang 攝影

遊戲市場不只是硬體重要,軟體平台與內容的匹配也是關鍵。在過去一段時間裡,大廠此消彼長的不同策略牽動了整個產業的發展。任天堂、SONY與微軟都切入家用電視遊樂器的市場很長一段時間;有段時期甚至有評論家認為電腦遊戲這個名詞將會從市場上消逝。但如今不但看來沒有消逝,甚至電腦連網遊戲跟著整個電競遊戲相關內容領域的發展成為另一種產業趨勢。

黃仁勳自己都強調,電競產業是一個仍在發展成長中,產值高達 1000 億美金的市場。如果不是與台灣廠商密切合作,NVIDIA 不可能把 GEFORCE 這個電競生態系創造得如此成功,讓世界上的每個玩家都可以很輕易的接觸到 NVIDIA 與電競的相關產品線。

雖然電競是一個龐大的市場,但由於硬體開發週期的特性,硬體廠商永遠比軟體廠商需要找尋下一支成長引擎。一系列無心插柳的作為讓 NVIDIA 看到了未來。

成功往往來自不經意,但堅定、積極的投資

一個還在讀大學尋求實習的學生 Ian Buck 來到 NVIDIA,並在隨後就讀博士班期間繼續認真研究透過 GPU 協助加速平行運算的可能性。對工程師來說,CPU 每次能夠處理的執行緒是有限的,加速處理的方法之一是加速每一個單位時間內可以進行的執行緒,另一個更好的方法是開出更多處理的執行緒。大部分 CPU 進步的方法都是前者,偶爾開出後者。但 GPU 原本天生的屬性的是可以大量平行處理更多簡單數學運算(乘或加)的執行緒,多數程式設計師需要的是如何自動調配透過平行運算來加速原本所需完成的運算工作。

CUDA 發明者,NVIDIA GPU 運算副總 Ian Buck
James Huang 攝影

2004 年,讀完博士的 Ian Buck 最後落腳 NVIDIA,並最終將這個自動調配 GPU 做平行演算的函式庫 CUDA 在 2007 年開發出來。那時候使用 CUDA 來應用 GPU 根本不是整個產業的主流,甚至多數人都不知道可以透過調用 GPU 來加速自己需要完成的運算工作。CUDA 最終根本性地改變了 NVIDIA,在推出 CUDA 時想法是可以透過 GPU 加速科學需求的運算(GPUPU),卻因為支持 ImageNet 的比賽結果,讓加拿大多倫多大學的小子替 NVIDIA 上了一課。原來 GPUPU 的演算,可以如此加速機器學習與人工智慧中最重要的演算法運行,這個概念值不止千金,根本性地啟發了 NVIDIA 大力將 GPU 運算朝向人工智慧應用方面轉型。也才會有大力投資 30 億美金,重新開發 GPU 核心設計,將 Tensor Core 的概念設計引入 GPU 這樣特別的想法付諸實現。

佈局完整,過去的經驗全都是今日成功的基礎

NVidia 早已不是過去的小公司,從 2006 年全球約 2000 人,擴張至今日超過萬人,擴張的絕大多數都是軟體或程式工程師(這也是為什麼 NVIDIA 需要蓋新總部的真正原因)。如果認真觀察 NVIDIA 如今網頁所列出的產品線,你會發現已經有超過一半以上的產品其實是以軟體的形式出現,但這些軟體多半都連動著自己所帶有的硬體發展。對 NVIDIA 來說,不斷地投資在這些軟體身上,方便開發者或使用者很容易調用自己的產品,都將是使用者最終決定採用 NVIDIA 的關鍵。

NVIDIA 創辦人黃仁勳展示 Volta 微架構晶片所成的 TESLA V100
James Huang 攝影

過去許多被市場認為的不成功,例如推出 NVIDIA 自己的主機板 mforce,卻都是今日成功的基礎,如果沒有過去做過這些硬體、驅動程式與各種需求的經驗,NVIDIA沒有辦法快速推出符合今日車用、城市應用等市場需求的合適產品。如今,NVIDIA 推出許多小型產品,如 Jetson 開發板系列,容許開發者在終端自行透過 SDK 設計對應的應用。當然,相較於更多免費、便宜、開源的開發板來說,Jetson 系列仍然昂貴,但 NVIDIA 正透過這些費用與特殊設計的機制(例如學生補助),篩選出合理、具有商業潛力的應用,並直接以公司資源投注在這些應用的合作開發上。

NVIDIA Project Holodeck 展示 Gogoro 相關產品
James Huang 攝影

傳統上,NVIDIA 在算圖加速上的應用仍有演進,許多應用都與 VR、AR 有關,這些應用也將逐漸影響到未來產業。黃仁勳在 2017 GTC 與 Computex 都仍有一個小篇章在介紹 NVIDIA 在 VR 上的進展,著重在 VR 虛擬實境的工作環境演化上。這個稱之為 Holodeck 的專案,是一個以真實影像模型為基礎的互動共同工作實境,特別適用在設計類的專案情境上。在 Computex 2017 現場,黃仁勳甚至邀請了 Gogoro 的創辦人陸學森一起上台感受多人遠端實際體驗 Holodeck 中的 Gogoro 一代與 Go Station 的設計。

Gogoro 創辦人陸學森與 NVIDIA 創辦人黃仁勳於 Computex 2017 上演說
James Huang 攝影

相對 Apple、微軟、IBM 等不同廠商的發表會。NVIDIA 黃仁勳在 GTC 與 Computex 的演說都更像是一場個人秀(編按:無怪乎現在人稱人工智慧教父),但圍繞著人工智慧作為主題核心所要傳達的概念是很清晰明確的。NVIDIA 將挾現有 GPU 開發、平行運算作為根基,並可以 CUDA 作為輔助協助各家深度學習框架優化(並非僅 Google 的 TensorFlow、微軟的 Cognative Toolkit 自家的深度學習框架),除了讓需要深度學習或人工智慧計算的企業或組織能建構有足額的硬體資源,也讓所有希望接觸深度學習運算資源的人或組織可以透過雲計算等方式,快速學習、部署自己的深度學習運算環境。目標要讓 GPU 運算環境容易建置、轉移、無所不在。

開源架構,透過生態系建構讓 NVIDIA 更強壯

在大數據口號喊了許多年後,許多產業內公司都逐漸真的開始累積起穩定、龐大的數據量,除了已知、常見符合常理的推論,配合簡單統計與預測模型,可以協助公司找出龐大資料中所隱含的資訊外,資料科學家都在努力尋找出那些未知,但可以替公司自動化的資訊,能夠讓企業最終省下大把成本,自動化更多工作。最靠近 NVIDIA 應用與商業模式的 Google 率先跳出自己打造晶片 TPU,縱有 Alpha GO 的成功在前,加上 Google Translate 的應用在後證明 TPU 專案在內部具有足夠價值,但在雲端運算的市場上,是否能競逐商業效益仍未可知。但 NVIDIA 目前在軟、硬體、雲計算、端計算應用領域佈局完整,並相對得到生態系伙伴的信任。

NVIDIA 創辦人黃仁勳宣布將開源 DRIVE PX 下的 Xavier DLA,後圖為 DLA 硬體架構
James Huang 攝影

連曾被 Linux 之父 Linus Torvalds 調侃,對開放社群相對不友善的 NVIDIA,都甚至準備要透過開源硬體架構 DLA 來建造更廣大的生態系。加上幾乎所有車廠、科技廠在矽谷都以前所未有的砸錢速度投資在自動駕駛領域內,不難看到整個產業發展正在非常快速的前進,透過開源架構可能是能夠包容整個產業、加速產業運作的最好選項。

仔細看看本屆 GTC 的贊助商們(AWS、IBM、CISCO、DELL & EMC、HPE、SUPERMICRO、inspur 浪潮與新聚思科技),就不難理解哪些企業將圍繞在接下來人工智慧、深度學習等需要資料、需要演算、能夠提供運算能量、提供運算框架、協助人才應用人工智慧達成前述應用的周遭趨勢。

James Huang 攝影

許多人都看好 NVIDIA 未來數年在人工智慧、深度學習上的進展。矽谷有許多華人圈的專屬討論群,在黃仁勳於 GTC 演講後股票大漲之際,議論紛紛 NVIDIA 的未來。同一時間微軟也在西雅圖舉辦自己年度的重要開發者會議 Build,但顯然得到的關注度不如 GTC。許多討論群人士紛紛表示,看起來這一仗黃仁勳打得非常漂亮。

對 NVIDIA 來說,從原本的遊戲、電競領域舒適圈跳開本不是容易的事。54 歲的黃仁勳正值壯年,兩個孩子都大了以後,顯然把拼勁全力衝刺在事業上。看來 NVIDIA 正像他第三個剛過了青春期的孩子,正往人工智慧與深度學習的商業市場上野蠻生長。

每日精選科技圈重要消息