持續灌注人工智慧的 NVIDIA
專題故事

輝達不斷投注資源打造人工智慧應用與開發生態系,持續更新硬體架構、同時讓開發者更容易上手的軟體與佈署環境;傾盡公司之力,強力押注深度學習。

1 從 NVIDIA 全力投入人工智慧上,台灣可以從黃仁勳身上學到些什麼?

James Huang 攝影
公司轉型對所有公司來說都不容易,我們可以從一個硬體起家、主力是遊戲市場的 NVIDIA 一連串轉型佈局學到些什麼?

相對於多數發展人工智慧的公司而言,NVIDIA 是一個很不一樣的存在。

輝達從視覺化硬體設計解決方案起家,目前領域上可以說得上來,正在投入人工智慧,特別是與演算法、應用相關的巨無霸科技公司,除了 Intel、AMD 這樣的老牌對手(?)(當然一票 FPGA 與 ASIC 也是,不過有些公司更忙著做礦機)或 Samsung、Apple 這類主要面對消費市場的大廠外,主要多如 Amazon、Microsoft、Google、Facebook、Softbank、百度、阿里巴巴、Naver(LINE) 或上週剛發表新產品的獵豹移動,這類以軟體、網路服務起家,滿手工程師與數據,又很會募資的巨無霸。當然,我們也沒忘記鋼鐵人 Elon Musk 的 TESLA,一家以能源與移動終端軟硬體整合解決方案為目標,但對他們來說,人工智慧應用只是其滿足市場需求的一個手段而已。

作為 GPU 領域的霸主,持續投注在任何可以使用 GPU 的領域是必然的營運策略。我們去年就已經說過,一道無心插柳的產品 CUDA,加速了機器學習模型訓練,進一步帶動多年來困著電腦科學家與工程師們,突破機器學習與深度學習門檻。GPU 運算的暴力美學,加上海量數據與雲平台、資料中心連串的基礎建設,帶來了 AlphaGO 打敗棋王,做到我們曾以為不可能的任務。一夜之間,人工智慧彷彿帶來了無限可能,從 rule based 起家的 Apple 的 SIRI,到啟發式關連圖的 OK!Google,甚至知道你很多秘密的 Alexa;進一步帶起人工智慧、深度學習、機器學習等領域的學術研究、業界開發應用。黃仁勳在 GTC 2018 就提及,從 2005 年 GPGPU 開始加速卷積神經網絡(Convolutional Neural Network, CNN)的運算,到 2012 年 Imagenet 比賽後開始爆紅,這 6 年來,學術領域針對各種不同類型的問題,提出了至少 500 種類以上的複雜網絡框架,多數框架複雜而美麗,負無數的框架或學術猜想,更需要非常大量的運算。

NVIDIA 創辦人兼 CEO 黃仁勳於 GTC 2018
James Huang 攝影

這波人工智慧熱潮,結合學術研究開發與人工智慧新創投入、加上大公司跳海;進一步帶動了運算需求,推動全球對於 GPU 的渴望。但除了產品被拿去當礦機,NVIDIA 究竟如何看待人工智慧浪潮,由如何耕耘市場?我們應如何看待這家公司?又能學到些什麼?

提供或補充各種軟體框架,積極滿足深度學習開發者需求

對於這些人工智慧應用來說,從學界到業界,最缺的就是懂演算法、會開發、會訓練、又最好還可以懂專業領域知識的運算人才。整個行業裡,開發者的來源除了花大錢挖角,就得自行培養或把各個學校或研究單位的實驗室當成農場去找人。GTC 的海報論文區就彷彿貼了很多新鮮肝的招聘單,你只要認真在海報論文區現場偷聽這些學生或工程師回答讀論文者的提問,就不難發現他們開始交換名片。許多求才若渴的單位派人到現場觀察,如同棒球場邊的球探,到現場來挖絕世寶

CUDA 作為透過 GPU 加速各項演算運算的基礎設施,在一年內由 45 萬註冊使用者增加到 82 萬註冊使用者是非常驚人的數字。根據 2017 年 LinkedIn 所提供全球關於 AI 領域的技術人才分布報告,全球 AI 領域的從業者數量也才約 160 萬人左右,就算 CUDA 的註冊使用者多有重複,或許多僅是一次性下載嘗試,不做複雜開發的使用者。這 800 萬的下載總量都意味著捕捉到多數對 GPU 加速演算法開發有興趣的人們。作為免費午餐的 CUDA ,對現今投入人工智慧領域的所有機構而言,就像是演算法開發技術人才的嗅覺標籤一樣有效。

對開發者來說,一款演算框架容易上手的程度、周遭工具集/愛好者社群的支援程度、容易讓模型資料或訓練資料跨在不同演算框架之間、容易找到新開發者持續維護演算程式都是選擇演算框架的重點。 Google 所推的 Tensorflow、Amazon 支持開源的 MXnet、Facebook 挖角 UC Berkley 賈揚清(Yangqing Jia),積極開發的 Caffe 2 甚至 H2O.ai 等在開發者社群平台 StackOverFlow 、Quara 甚至知乎討論群都各有所好。NVIDIA 推出的 TensorRT 直接積極找各家整合框架,透過共同開發最佳化讓 GPU 足以發揮全效。

NVIDIA 創辦人兼 CEO 黃仁勳於 GTC 2018
James Huang 攝影

一般而言,人工智慧應用還分雲(資料中心)與端(終端裝置,如手機、穿戴式裝置或 IoT 設備等)兩部分。NVIDIA 在這裡也積極佈局,除推出 NVIDIA GPU Cloud,整合主流雲計算服務,如 AWS、GCP、阿里雲等,方便使用者透過簡易介面快速佈署演算至不同資料中心/雲設施外,也與 arm 達成協議,將自身的人工智慧加速演算架構智權開放整合至 arm 的 IoT 解決方案 Project Trellio 中。

但,對軟體開發者或商業產品開發者而言,這樣就夠了嗎?NVIDIA 一連串的投入與開發替開發者打下了最重要的幾個開發門檻,意味著在人工智慧開發領域裡做了基礎的造橋鋪路,但橋歸橋路歸路。整套工作流程仍有許多部分仍待整合。微軟才剛推出方便 Windows 使用者不需要跨平台進行機器學習模型開發的 WinML,NVIDIA 雖隨即做了支援整合,但還得看使用者買不買單。方便不具備高度程式經驗的產品開發者,自行訓練深度學習模型的流程式軟體才剛起步(比較知名的例如 Deep Cognition 的 Deep Learnign Studio 與 IBM 的 Waston Studio);更別提整理資料,試算表(例如 Microsoft Excel 或 Google Spreadsheet)等級的工具可無法滿足複雜多樣的海量數據需求。

黃仁勳在 GTC 2018 的主題演講中提及,雖然許多人提到深度學習運算可以以 FPGA、ASIC 等方式進行加速,但根據 NVIDIA 經驗,他知道要從頭到尾整合這些東西從不簡單。從一個例如自動駕駛的問題,就算在電腦科學與電機領域裡,就需要數個領域專家的整合,才能提出一個堪用的結果,更別提好用了!GPU 本身是很耗能沒錯,但也正隨著硬體技術(此指半導體製程)與軟體應用(此指指令集與演算加速架構)配合在進化。自駕車用系統的快速迭代演進就是最好的例子。

軟帶硬,滲透各家分享未來運算市場

所以,看似在每個重要市場或應用領域都提出對應方案的 NVIDIA,面對人工智慧、機器學習或深度學習的海量運算市場,是否可說是前方晴朗無雲?別忘記藍色運算巨人 Intel 仍在全球的資料中心市場與智慧財產權佈局上具備了無可批敵的本事,近來縱有執行長賣股疑雲,Intel 仍在人工智慧應用市場積極佈局;發展不夠快,就用投資或併購的方式積極前進,除了最知名的 mobileeye 收購案,眼光雪亮的讀者不妨試著研究看看 Intel Capital 那手中漂亮的一籃子投資組合。

雲計算市場就更有趣了,搜尋、廣告巨人 Google 絕對不是省油的燈,在 AlphaGo 攻克深度學習的聖杯後,除了軟體端推出 TensorFlow 與 AutoML,也在自家的資料中心投資下更多功夫,組織硬體團隊自行設計晶片、委託晶圓代工商生產自家的 TPU (Tensor 處理器)。Facebook 也宣稱和 Intel 合作開發自己的晶片放在自家的資料中心,更別提 Tesla 與 Apple 原本就具備開發終端裝置晶片的能力,也都投注資源在研究終端人工智慧應用運算晶片。

對端運算市場來說,除部分超大型公司已經有非常具體的應用與出海口(有足夠的市場需求量,足以支撐設計開發與生產晶片所需要的成本),因此有能力自行開發晶片。大部分的公司可能都將採行因應產業需求而特化設計過的晶片組,例如 NVidia 只針對自動駕駛需求特化設計的 Drive 系列,與符合一般綜合需求的 NVIDIA Jetson TX2 (這塊領域有極多廠商,包含開放專案競爭)。

NVIDIA DGX-2 與 TESLA V100
James Huang 攝影

但,我們卻可見 NVIDIA 在硬體的商業策略彈性。除積極與各家雲廠商合作,將自身的 GPU 解決方案(DGX系列)裝到自家資料中心,也協助這些雲計算平台針對 GPU 運算提供專用的入口、開發者指南、教學資源、甚至跨平台佈署的 NVIDIA GPU Cloud 工具。幫助這些平台在自家生態系還不健全時拉攏開發者,但又給開發者更大的彈性來避免各家雲計算廠商對使用者 lock-in。NVIDIA 也同時選擇性地在幾個人工智慧將有巨大突破的市場投注軟硬體資源。NVIDIA 選擇將自身用於自駕系統的 DLA 架構直接與 arm 合作開源架構也是一個有趣的決定,透過這個架構,聯合市場教育深度學習開發者在推論所選用的 TensorRT(一個深度學習演算框架所需推論用的編譯器),來面對另一個市場聯盟提出 RISC-V 對物聯網 + 人工智慧系統單晶片(IoT + AI SoC, 台灣多稱 AIoT SoC)市場的挑戰。

從黃仁勳的言談可見,NVIDIA 目前視自動駕駛為人工智慧領域的聖杯。他認為一個可以有效運作的系統,足以替代人在任何時候(就算是系統已經過載或錯誤)都可以有效處理任何駕駛情況,是一個非常困難,但值得 NVIDIA 傾全力進攻破解的難題。從傳統的電腦科學領域來說,它集結了電腦視覺(Computer Vision)、視覺辨識、自動控制的整套控制鏈與邏輯設計、機器學習中的模型預測、邏輯判斷等超級複雜的各項問題,而且必須能夠即時運算處理,保證系統的穩定與安全。Drive Sim 自動駕駛模擬解決方案就是好例子,整合多項不同技術,方法論上可能足以解決一部份自動駕駛測試的問題。

我們可以從黃仁勳身上學到些什麼?

作為 NVIDIA 的創辦人兼 CEO,沒有超人的熱情不可能將公司發展至此。許多與會者就提及,見黃仁勳演講彷彿一場秀,在秀裡黃仁勳就是 NVIDIA 的超級業務員,他愛自家產品、愛團隊、愛開發者。言談不斷稱自家產品內外設計有多漂亮、價格有多便宜划算,在主題演講上,黃仁勳就不斷強調:「買越多(GPU),省越多!(The more you buy, the more you save!)」;邊發表產品邊直接點名團隊成員全名:「啊!愛死你們了!」也是他自始自終的習慣;對美妙的技術讚不絕口,「天啊!這麼快!」喜歡任何開發者用絕妙點子更快、更好地解決問題。可見得他花盡所有力氣,整合全 NVIDIA 的資源,就是要滿足終端市場。

身為代工王國,也號稱要發展品牌的台灣,就算常見發表會上可見老闆親自端出產品,你也很難見到台灣企業老闆能夠真的瞭解整個產品的各個部分是如何組成、怎麼製作的,甚至發表投影片也只是基本的行銷設計,不是專業、流暢的連串投影片,更別提真正勞苦功高、發展產品的團隊成員們了。可以直呼這些成員本名,意味黃仁勳介入產品發展甚深,對所有細節知之能詳,甚至也對神經網絡研究領域的新發展抱持好奇持續學習;整合多影片、直播甚至不同畫面,在兩小時發表會順暢的投影素材,也足以代表老闆本人的美學品味、口說技巧與市場嗅覺。

NVIDIA 創辦人兼 CEO 黃仁勳於 GTC 2018
James Huang 攝影

在人工智慧市場趨勢發展上,你可見黃仁勳以高度的活力,全心投入這家公司的轉型進展。10 年轉型不意味著放棄,但 NVIDIA 推動 GPU 架構演進的力道已從遊戲玩家為主體的電腦視覺市場需求,轉至平行運算市場需求。縱然發表會後股價不升反跌,卻可見各家研究機構的分析師對其最重要營收來源:遊戲給予中立正面評價,多數機構對 NVIDIA 所提出在人工智慧的深度佈局賦予公司的成長方向也給予高度肯定。

圍繞著 GPU 運算,黃仁勳很清楚地為 NVIDIA 擘劃了許多支成長引擎,每塊垂直領域都有重點發展,但又同時多方佈局。成熟市場如遊戲(Gaming)平台與仍在成長中的專業視覺應用(設計、建築或 AR/VR 等,稱做 Provisiualization)是 NVIDIA GPU 傳統的應用領域。因應人工智慧運算市場發展出的高效能運算(HPC)、雲計算(Cloud)與資料中心事業,自動駕駛(Automotive)與機器人(Robotics)則仍待成長中,光是資料中心的潛在市場規模就從 2020 年將預期有 300 億美金,到 2023 年則預計將成長到 500 億美金。

這樣的轉型不是沒有風險。黃仁勳提及,十年前,這 4 個市場都相對很小,就算這兩年好運,市場因新遊戲如大逃殺(Battel Royale)、絕地求生(PUBG)而猛烈成長,更多人希望分享影像,尤其是遊戲影像。加上全球約 10 萬人左右的人工智慧學者,選用最普及容易入手的 GPU 來組成高效能運算(HPC)設備,加上虛擬貨幣如不想被 ASIC 控制的以太坊等而讓 GPU 炙手可熱;但可見垂直領域的每個市場都持續擴張,NVIDIA 也在每個市場都有斬獲,且輝達在每個領域的市場份額都還不算大,加上摩爾定律(moore's law)在 10 年內對 GPU 依然有效,讓黃仁勳對 NVIDIA 充滿信心。

眾多垂直領域中,輝達長期看好自動駕駛市場

有些人質疑在昨日 GTC 2018 主題演講中所發表的 DGX-2 與 NVSwitch,認為其比 DGX-1 多了一倍 GPU,但不是直接在硬體架構上做整合,而是另外做一個 NVSwitch 來連結兩倍於 DGX-1 的設備,此舉造成 DGX-2 的能源效率是 DGX-1 的 2.5 倍左右,並不符合黃仁勳自己強調 GPU 能夠合理使用能源效率的原則。黃仁勳為此做出辯解:「沒有人叫我們做 NVSwitch,就如同沒有人要我們做很多事一般。」他說,「我們很確定人工智慧研究需要使用高效能運算,因此研究者會想要很大的 GPU,但整個市場有多大還很難說,我們只能確定因為有人需要,所以我們提出這樣的解決方案來滿足他!」黃仁勳最後還不忘強調:「再者,你用不到 10 倍的價格買 DGX-2 ,就可以得到超過 10 倍 DGX-1 的效能!所以還是買越多,省越多啊!」

NVIDIA DGX-2 與 TESLA V100
James Huang 攝影

許多人關心 Uber 的自駕試驗造成第三人死亡事件將成為自駕市場的重大風險,黃仁勳嚴肅地表示:「老實說,Uber 的自駕系統並沒有使用 NVIDIA 的任何產品,但根據工程準則,在 Uber 事件後不到一天,NVIDIA 自身就全面叫停自駕系統路試。」黃仁勳說:「整個產業都在等 Uber 這起事件的報告,也希望從中學到更多經驗。但,就他所認知,在 NVIDIA 合作的 300 多個合作夥伴中,每家車廠對自動駕駛的開發都可說是在飛奔!」黃仁勳強調自駕系統要能改變世界的最終要素有三:1. 技術要繼續改進,2. 產品也要能繼續改進,並且 3. 使用者要能接受技術。「第三點是最重中之重!」黃仁勳說。

根據 NVIDIA 目前對於自駕系統設計的經驗,他們已經知道整個自駕系統不只是一個深度學習演算框架而已。以目前的設計,整個自駕系統已經有超過 100 個不同的演算法在其上運行,許多演算法並不是深度學習、機器學習等人工智慧領域的產物,整個自駕系統可說是一個軟體定義運算的系統(Software Defined Computing)。為此,黃仁勳認為這個系統非常值得一個專為系統設計的 ASIC,如 NVIDIA Xavier 這樣,將一個 GPU 加上一個 DLA 包在一起,做成一顆 SoC(System on Chip),並通過以往都只有低階汽車電子零件才能通過的 ASIL D 認證裝置(一個 ISO 26262 安全認證標準,讀者請不妨想像將一個小型超級電腦通過複雜的環境測試),來保證這個自駕系統的功能安全性。

面對中國崛起,NVIDIA 期待一個連結的世界

近來中國在人工智慧市場進展神速,看似 NVIDIA 將迎來一個廣大的市場,但其中可能也會有許多潛在對手,但黃仁勳並不這麼看待。他表示,中國市場已經佔有 NVIDIA 30% 的市場份額,NVIDIA GPU 在中國同樣民主化了所有人對高效能運算的需求;同時,NVIDIA 也在中國擁有超過 3000 名員工、並同樣以自身的 IP、技術、產品透過交換、授權、買賣等方式支持在地人工智慧公司的發展與成長。「我們就是希望自身產品能夠用簡單使用越好!」黃仁勳表示「只要整合、最佳化到最多人使用的工程流程,就能讓我們變得更好!」,他認為全球現在所有的科技供應鏈與產品已經無法區分彼此,「你手中的任何一支智慧型手機同時都在台灣、中國、南韓、日本甚至美國開發與生產,沒有一個國家可以被排除在這個網狀市場中!」黃仁勳間接透過譬喻,強調國際貿易市場合作的重要性。

Toyota 測試中搭載 Drive PX 2 的自駕車系統(以 Lexus 為載台)
James Huang 攝影

我們曾說過,NVIDIA 就如同 55 歲黃仁勳剛過青春期的第三個孩子,正隨著人工智慧市場的進展猛烈成長;但這樣的發展也不是沒有隱憂。一個如今已發展規模破萬人的科技公司老闆,對所有主力市場、產品開發與行銷介入甚深,需要的是過人的精力與相對能和諧合作運作的團隊。黃仁勳與 NVIDIA 高層團隊雖樣樣不缺,但所有重點轉型策略全有賴創辦人為主角積極推動,不禁令人想到另一個矽谷知名例子:蘋果的 Steve Jobs。轉型會造成公司的巨大不平衡,現有產生現金流的團隊不一定能夠得到較多資源,未來市場的團隊雖有極大資源,但在商業開發與產品路線上,卻也可能受到原有產品線的束縛。這些問題都有賴高層毅力與 CEO 持續的決心。一旦公司失去這個角色,不代表公司將不繼續成長,卻為這個組織的未來劃上一個問號。

但黃仁勳對此深具信心,對自己的公司成長飛快,且已經超過萬人,但多數管理團隊仍是 25 年創業以來逐漸網羅的同一群人。「我們有共同的策略、文化與合作認知,我們甚至很容易從email的字裡行間,或面對面的眼神中,直接讀到對方的心!」黃仁勳強調,「這 25 年來,我確定我讓自己外表保持得還可以,不像是有些同事已經慢慢變老,但我很確定我們整個團隊都變得更圓融、更聰明!」黃仁勳笑說,「透過這樣的夥伴關係,允許我們將管理流程高度壓縮,所以還能維持一樣的效率!」面對矽谷巨無霸科技公司的一連串醜聞(例如臉書對劍橋分析的資料外洩事件),黃仁勳也在學習謹慎「我不知道在大公司感覺如何,但我知道現在 NVIDIA 還很小。」他說:「但我們所有人應該謹慎面對每件事,對個人隱私資料也是!」

根據黃仁勳持續播種,不停插柳,在公開演講對自己的營收來源著墨不深,卻使盡全力展示未來轉型的宣示,你該怎麼看待 NVIDIA 呢?從這兩年的趨勢來看,不妨想像它未來除了會是一家繼續賣卡賣機器的公司,最後還可能會不小心因為深度學習,而擁有大量智財,靠授權、租賃等不同商業模式繼續前進的有趣企業吧!

2 All in 深度學習!輝達黃仁勳於 GTC 宣布軟硬體全面升級

James Huang 攝影
三年內營業額成長一倍,拼命把人工智慧貼在自己招牌上的 NVIDIA,股價也當然跟著水漲船高。這 10 個月來,深度學習市場又有哪些進展,黃仁勳又看到些什麼?

由 NVIDIA 輝達(NASDAQ:NVDA)所主導、贊助支持之 2018 年 GPU Technology Comference (圖形處理器技術研討會,後簡稱 GTC),在美西時間 2018 年 3 月 26 日起於美國舊金山灣區南灣的聖荷西會議中心展開。第二天一早的重頭戲為台裔美籍、 NVIDIA 創辦人兼執行長黃仁勳(Jensen Huang)的主題演說。

延續去年開場的 I am ai 系列,NVIDIA 今年介紹更多深度學習的相關應用,例如醫療影像切片、智慧製造領域機器手臂控制、影像辨識用於撿貨、品質管制、機場或公眾場所影像辨識供安全或公眾利益需求等方面的應用,演講伊始,黃仁勳首先介紹 GPU 已經廣泛被設計、建築、影像工作室(studio)等領域,用在模擬運算實際影像,例如光影反射與呈現等領域。

從 1979 年發展,到早期只能夠在數小時計算、描繪出一張以假亂真的模擬圖片,到現在 GPU 已經可以支援解析度高達 4K,每秒 60 張的即時影像輸出。透過動作捕捉,電影工作者甚至可以在短時間模擬拍出即時場景影像呈現。

黃仁勳於 GTC 2018 專題演說
James Huang 攝影

NVIDIA 也順勢推出以 Volta 為基礎的新一代顯示卡 Quadro GV100,除可支援 32GB 記憶體,也可透過 NVLINK 2.0 支援多 GPU,並最高可擴充至 64GB。以顯示卡為主體支援的圖像描繪領域應用非常廣泛,主要包含遊戲、媒體與娛樂、產品設計與建築等領域,每年透過 GPU 描繪的影像以數十億幀計算。

基於 Volta 微架構的硬體再升級!同時推出 NVSwitch 支援更多 GPU 平行運算

NVIDIA 延續去年推出的 Volta 微架構、引入為人工智慧特化的 Tensor Core 的 TESLA V100,在市場對人工智慧運算的強勁需求下,持續推升架構周遭的硬體效能。首先,由於市場對人工智慧運算模型的總處理資料量持續放大, Tesla V100 GPU 可以支援去年兩倍的記憶體容量達 32 GB,來緩解對記憶體有高度限制的高效能運算。除 DGX 系統可立即全面支援,主要的伺服器生產商 IBM、Supermicro、HPE、聯想、Cray 與 Tyan 預計也將在 2018 年 Q2 推出相應產品,甲骨文雲端基礎設施(Oracle Cloud Infrastructure)也預計將在下半年推出相應服務。

NVIDIA 也針對支援 CPU 分配 GPU 工作,並讓 GPU 與 GPU 間可以聯絡,擁有 300 GB/s 傳輸速度的 NVLink 2.0 協定(主要支援廠商有 IBM Power 與 NVIDIA GPU)進行升級。其方法並不僅是在協定上增加更多頻寬,而是模仿網際網路或主機上常見的多匯流排交換解決方案,提供一個新的選項:交換器(Switch)。很沒創意,讓人一看命名就知道在幹什麼的 NVSwitch 延伸拓展了 NVLink 協定的應用。以台積電 12 奈米 FFN 製程工藝的新交換器裝置,容許 16 顆 GPU 以 2.4 TB/s 的速度同時進行資料交換,因此允許開發者在伺服器上平行訓練更多神經網絡。目前擁有 82 萬開發者,相較去年成長接近一倍的 CUDA 運算平台也隨硬體同步更新支援 NVSwitch。

黃仁勳於 GTC 2018 專題演說
James Huang 攝影

輝達強調,去年結合 Volta 架構,針對深度學習、人工智慧應用推出的 DGX 系列大獲好評,因此推出主要供資料中心使用的 DGX-2,透過 NVSwitch 搭載 16 組 TESLA V100(恰巧是 DGX 1 的兩倍)。在 NVIDIA 的技術報告中,針對 Facebook Research 所推出,使用以列對列學習、基於 Torch 架構的神經機器翻譯(英法、英德、英文對羅馬尼亞文翻譯)工具集 fairseq 上,甚至可以測得 10 倍於 DGX-1 的效能表現。據此,今年 NVIDIA 自身的 DGX 產品線將包含 DGX-2(定價 399,000 美金,約合 1200 萬台幣)、DGX-1(定價:149,000 美金) 與 DGX Station(定價:68,000 美金)。相較於透過純 CPU 主機構建資料中心而言,黃仁勳不斷強調:「買越多(GPU),省越多!(The more you buy, the more you save!)」

軟體跟上!主流雲端運算服務皆支援,搭配綿密佈局、方便各類開發者生態系

讓輝達足以跨雲端平台與資料中心,建立 GPU as a service (GPUaaS)的 NVIDIA GPU Cloud 也在近日做出更新,除全面支援 kubernetes 外,也正式橫跨 AWS(Amazon Web Service)、GCP(Google Cloud Platform)、阿里雲與 Oracle 雲。支援更多深度學習、高效能運算等框架。

黃仁勳發明一套 PLASTER 理論,用以評估深度學習或機器學習系統整合是否足以支援商業應用。包含:

  • 可程式化能力,Program ability
  • 服務反應速度,Latency
  • 模型應用精確度,Accuracy
  • 神經網絡模型大小,Size
  • 生產總量,在此指資料中心運算力,Throughput
  • 能量消耗程度,Energy Efficiency
  • 深度/機器學習模型的訓練、推論、佈署速度,Rate of Learning
黃仁勳於 GTC 2018 專題演說
James Huang 攝影

黃仁勳認為,人工智慧應用中,訓練模型所需要的僅僅是運算力,但需要佈署模型快速運算的推論端最顯複雜。雖然有許多企業強調可透過 FPGA 或特製 ASIC 來加速特定深度或機器學習應用,但黃仁勳強調,資料中心非常複雜,一點都不簡單。對大型資料中心,好開發易維護才是重點,是否容易程式化、方便開發者快速佈署,是人工智慧應用的關鍵。

NVIDIA 今日也同步宣布可在資料中心、嵌入式系統與車用終端運作,可快速最佳化、驗證與佈署 多GPU 神經網絡訓練的 TensorRT 4 的更新;除與 Google 合作,整合 TensorFlow 1.7 之外(相比未最佳化 GPU 運算可高達 8 倍速),也家務更多深度學習推論應用領域,例如神經機器翻譯(neural machine translation)、自動語音辨識(automatic speec recognition)、語音合成(speech synthesis)與推薦系統(recommendation systems)等。

為了方便神經網絡訓練的資料快速交換,NVIDIA 也與 Amazon(MXNet)、Facebook(Caffe 2) 與微軟合作,TensorRT 4 也宣布支援 ONNX 框架,幫助使用 MXNet、PyTorch、Caffe 2 等主流深度學習開發框架的使用者可以快速交換模型訓練數據。透過 TensorRT 4,開發者也可以快速將最新的深度學習運算應用推論,以 16 位元半精確度(FP16)、或8 位元整數(INT8)精度,快速佈署至終端自動駕駛系統,如 NVIDIA DRIVE 或 NVIDIA Jetson 上。

3 強強聯手!NVIDIA 將其深度學習加速架構與 arm 整合推進機器學習端計算應用

數位時代製作
NVIDIA 與 arm 的終端機器學習解決方案 Project Trillium 整合,將可供行動裝置、物聯網等終端機器學習解決方案的開發者一個快速推進滾動更新的軟硬整合架構。

NVIDIA CEO 黃仁勳於美西時間 2018 年 3 月 27 日早晨舉行的 GTC (圖形處理器技術研討會,GPU Technology Conference) 專題演說中宣布該公司和 arm 達成夥伴協議,將原本應用在自駕車的系統單晶片解決方案 Xavier 的 NVIDIA 深度學習加速架構(NVDLA, NVIDIA Deep Learning Accelerator)開源,並整合至 arm 在今年二月公布的機器學習平台 Project Trillium (延齡草專案,數位時代暫譯)上。

延齡草專案是由 arm 所推出的機器學習運算解決方案,主要提供所有終端裝置,例如手機、平板電腦、感測器或 IoT 設備等,針對人工智慧所依賴的神經網絡(neural network)運算進行加速。一般而言,人工智慧應用除透過以雲計算為主的大型資料中心運算外(主要用以訓練模型),尚須在終端裝置(例如汽車、手機等)進行推論即時演算,由於這些演算需要依賴終端裝置的即時運算效能,如能針對特定演算法進行加速,除可提升人工智慧應用回應的即時性,也可以協助終端裝置節省運算所需要的能量,達成省電、節能等目的。

黃仁勳於 GTC 2018 專題演說
James Huang 攝影

Project Trillium 被視為已在已在智慧行動裝置處理器市場取得壓倒性勝利的 arm 進一步透過人工智慧應用,進軍物聯網市場的重要策略。藉由這個夥伴關係,NVIDIA 也可進一步將自身的深度運算加速器架構推展到 arm 所覆蓋的市場,為深度學習推論處理器提供一個標準化設計的可能路徑。arm 預計將在今年 4 月推出延齡草專案的相關套件預覽,並於 2018 年年中正式推出搭載相關技術的產品。

對 NVIDIA 原有的開發者生態系而言,這個合作意味著可以透過諸如其 TensorRT 等架構,將原訓練出的機器學習模型,快速佈署到終端裝置上(例如,透過 OTA 對終端裝置負責處理神經網絡運算加速的處理器進行模型更新)。理論上,這可以加速產業不斷地最佳化人工智慧應用,將學術領域或社群所開發的最新應用,透過推播更新直接佈署到終端裝置。對於物聯網、行動裝置市場來說,基於 NVIDIA 在深度學習開發者生態系的耕耘與 arm 在該市場的主導地位,這個 IP 合作關係預計將會加速推進人工智慧的推論應用。

延伸閱讀

4 更安全的測試模式?NVIDIA發表全新自駕系統測試方法

James Huang 攝影
透過Drive Sim模擬產生類似電玩跑車浪漫旅行或俠盜獵車手所見的前後左右視角影像,再交由Drive PX測試,此法理論上可平行運算增快自駕系統測試的哩程數。

時至2018年,全球各汽車製造大廠、共享交通平台與網路科技領導廠商無不投入研發自駕車技術。然而,因技術仍持續發展中而無法確立的政府法規、制度與實際測試環境的極度不確定性,實際上路測試對大多數的廠商而言都是絕大挑戰。任何一則上路測試的消息除引起當地居民的安全擔憂,也擔負著眾多關心數位科技創新公眾的具體期待。

Uber自駕車上路實測計畫於本月18日在亞利桑那州坦佩市(Tempe)撞死一位橫向走過馬路民眾的不幸事件,成為自駕車史上第一起車禍致死第三人的案件(編按:死亡的並非駕駛或乘客,2016年曾有佛州Tesla駕駛於自動駕駛模式下撞車致死意外),加上上週五(3月23日)在加州101號公路上TESLA X衝撞翻滾起火,造成駕駛重傷送醫不治的不幸案件,預期將使汽車製造商的自駕車上路測試計畫更添變數。

吳元熙/攝影

自駕車不上路測試,可行嗎?

自動駕駛系統必須要完成上路測試是一般人對於標準汽車正式進入市場銷售前的基礎認知。在未引入自動駕駛系統前,多數汽車進入市場前的測試,除了實際一般人使用的道路測試外,多半會選擇專用、特地設計符合測試規格的車場,由專業駕駛進行道路測試。為了符合實際道路應用情景(例如行人、大/小各型車款混合、路樹、街道裝置、氣候、光線與實際場景的複雜電子訊號干擾等),自動駕駛系統必須實際上路收集相關訊號,以供模型訓練與推論,除累積測試公里數極慢,也更增加現實道路環境的不確定性。

NVIDIA於今日(美西時間3月27日)提出一種新型自動駕駛系統測試方法Drive Sim,透過生成模擬器生成實際道路測試所需的資料串流(包含生成Lidar、各種汽車感測器、前/後/車側等鏡頭所收集到的資料流),即時提供給NVIDIA自家的第四代自動駕駛解決方案DRIVE Pegasus處理運算,以每秒三十次的方式進行模型調整與推論來達成測試自動駕駛系統的目的。

這種新型自動駕駛系統測試方法在方法論架構上,非常類似生成對抗網絡(GAN, Generative Adversarial Network);透過生成模擬器來產生測試資料,與自動駕駛系統反饋平衡的模式來找到最佳結果。透過生成模擬資料來進行道路測試的優勢,是可以不受時間、空間限制,不斷針對特定場景,例如雨天、下雪道路、山路或正對陽光、背光等實際道路情景快速進行重複、平行測試,快速累積道路測試哩程經驗,且不會造成現實道路環境的不確定性。

然而,該生成模擬測試方法是否確實有效,除依賴每一波生成模擬系統所生出資料與真實資料的高相近程度(讓生成資料與真實世界環境資料極為相近),也非常仰賴自駕系統反饋後,生成模擬系統正確反應產出下一波資料的合理性。該模式需要高度整合影像模擬與因果推論的專家與成果。

NVIDIA 自駕車運算系統發展路線圖
James Huang 攝影

黃仁勳也特別解釋自家自動駕駛運算系統的演進路線,包含最早提出的 Drive PX Parker、第二代 Drive PX 2、至第三代 Drive Xavier、第四代 Drive Pegasus,以及目前尚在測試階段的 Orin。

黃仁勳稍早在GTC演講會後強調,稍早Uber自駕車的不幸事件應該讓所有發展自動駕駛系統的公司更加謹慎,但不代表所有科技團隊應該停止發展自駕系統。所有自駕研究團隊應該小心、謹慎地從這起意外稍後的詳細調查報告中學到一些經驗,記取這些經驗繼續發展自駕系統。NVIDIA表示,目前全球已經有超過370家左右,包含汽車製造商、卡車或巴士製造商,汽車系統整合解決方案商、共享交通平台、自動送貨公司等不同領域的的各類交通解決方案企業正與NVIDIA的自駕系統部門進行不同層次的合作,尤以中國企業進展飛速;黃仁勳樂觀預期,在2020年上市的所有電力驅動車(EV, Electric Vehicle),全部都會具備某種程度的自動駕駛功能。

由於自駕車需經過訓練、測試、實際駕駛等一連串的開發流程,NVIDIA表示這個方法論目前仍處於內部整合開發測試階段,會在稍後該模擬方案達成一定水準後開始與客戶驗證合作。

延伸閱讀
生成對抗網絡
GAN, Generative Adversarial Network
Ian Goodfellow 於 2014 年所提出的一種非監督式學習方法。透過生成神經網絡與判別神經網絡相互對抗取得博弈均衡的結果,最終取得可生成模擬資料的數據模型與可辨識或分類資料的數據模型。 (來源: )

5 新聞小辭典:什麼是生成對抗網絡(GAN)

ShutterStock
Ian Goodfellow 於 2014 年所提出的一種非監督式學習方法。透過生成神經網絡與判別神經網絡相互對抗取得博弈均衡的結果,最終取得可生成模擬資料的數據模型與可辨識或分類資料的數據模型。

機器學習(Maching Learning)中,主要有幾種常見的學習策略:

  1. 透過已知標準答案的資料集進行模型訓練的監督式學習
  2. 相對於監督式學習,未知標準答案(或不需要以人工來標籤分類)的非監督式學習
  3. 與同樣不需要正確答案,透過環境獎勵與懲罰來引導答案的強化學習

2014 年,由 Ian Goodfellow 所發表的生成對抗網絡(GAN, Generative Adversarial Network)是非監督式學習的一種方法。這種方法主要由兩個同時提出的神經網絡模型所組成,一個模型稱做生成神經網絡,一個稱做判別神經網絡。

其中,生成神經網絡的主要任務,是要透過隨機採樣潛在隨機變量來輸出結果,該輸出結果必須要盡量靠近訓練集資料的真實樣本。

判別神經網絡則是分別將真實訓練集資料與生成神經網絡所模擬製造出的資料輸入進行比對。

生成神經網絡負責模擬生產出很靠近真實資料的資料,交由判別神經網絡與真實資料進行比對;透過生成神經網絡盡全力欺騙判別神經網絡,判別網絡盡全力辨認出真假資料,兩個網絡相互對抗、不斷調整各自網絡參數的平衡結果成為模型學習成果。

最終得到的生成神經網絡,常被用於模擬以假亂真的圖片、影像與物體等。而判別神經網絡則可用於辨識或分類。