推出 CUDA 9 進一步深耕深度學習社群
對應著此次 TESLA V100 的推出,NVIDIA 的 GPU 解決方案其實已經因為在架構上引入 Tensor Core 而產生巨幅變化,因應著 Google 自行提出了 TPU 架構,NVIDIA 除了推出引入 Tensor Core 的 Volta 微架構外,也進一步隨著微架構產品更新 CUDA ,提供市場主流的深度學習開發者套件最佳化環境。(在 2017 年 GTC,包含 Caffe 2、Microsoft Cognative Toolkit、mxnet、PyTorch、TensorFlow 與 theano 等主流深度學習開發框架都有教學或分享應用議程)
對 NVIDIA 來說,每一個目前主流發展中的深度學習框架都各有優缺點,也幾乎各有擁護者。作為提供主要運算資源的 NVIDIA 方,希望能夠提供給所有開發者一個良好、方便的環境,讓開發者可以輕鬆做深度學習訓練模型的開發工作。CUDA 9 已經針對深度學習目前的主流開發者套件,如 Caffe 2、 Microsoft Cognative Toolkit、mxnet、PyTorch、TensorFlow 與 theano 在 Volta 架構下,因應引入的 Tensor Core 的最佳化運算做了調整。
GPU AAS,要讓 GPU 雲端計算無所不在
對於應用人工智慧或深度學習來說有兩個端點,雲端與終端,在硬體篇中,我們已經見識到 NVIDIA 做為一家硬體起家的公司,在兩端之間分別下了多少功夫與努力。為了解決人工智慧或深度學習,方便運算應用無所不在,NVIDIA 除了與 CISCO、DELL、HPE、IBM 與 Lenovo 等大廠合作推出相應的 GPU 系統外,也必須同時解決開發框架與運算資源取得的難題。
NVIDIA 因此針對個別開發者提出了針對深度學習運算環境難以移機異地運算的問題,提出了 NV Docker 解決方案。NVIDIA 將深度學習開發框架(如 Caffe 2)與 CUDA Toolkit 和開發者所撰寫的運算程式、資料包裝成完整容器(Container)後,即可在不同運算環境下移轉,理論上可以方便開發者快速移轉運算環境。(編按:此時資料大小與網路速度,其實可能會是移轉順利與否的主要關鍵。)
NVIDIA 也與全球主流的公有雲計算廠商合作,在阿里雲、AWS(Amazon)、GCP(Google)、IBM Bluemix、Microsoft Azure 與百度雲等都建有 GPU 加速的高效能運算服務。除了直接佈署 GPU 配合開發框架來達成深度學習的運算環境外,也可以透過 NV Docker 來做轉移。
NVIDIA 甚至研發了一套軟體佈署運算工具 NVIDIA GPU Cloud,可以透過介面簡單選擇所需的資料、模型程式、運算框架、運算資源等,透過按鈕就可以完成佈署。預計七月 Beta 公眾測試!