只要1/10資料量就能完成AI模型!NVIDIA的新技術「ADA」是怎麼做到的?

2020.12.08 by
簡永昌
只要1/10資料量就能完成AI模型!NVIDIA的新技術「ADA」是怎麼做到的?
shutterstock
AI的應用無所不在,不過當模型的生成需要大量資料來產生時,對於資訊搜集相對困難的應用該怎麼辦?NVIDIA研究團隊近期找出了一些新的方法⋯⋯

面對人工智慧(AI)時代的到來,「影像(image)」辨識成了目前應用的主流場景,如人臉辨識、工廠瑕疵檢測等,透過大量的資料「餵食」讓機器學習(machine learning)達到人類需要的目的。

但是要讓機器最終能夠辨識什麼是狗、什麼是貓,甚至是更近一步辨識哪些品種,其中需要的資料其實相當龐大,但如果某些應用場景、如罕見疾病也希望能發展AI但資料量卻不足的時候怎麼辦?

NVIDIA發表ADA技術,用翻轉、扭曲讓資料量更豐富

NVIDIA的研究人員將開創性的神經網路訓練技術應用於NVIDIA StyleGAN2模型上,就以大都會藝術博物館所提供不到1500張圖片的資料庫,透過NVIDIA DGX系統來加快訓練速度、打造出一個能創造新的AI藝術模型,同時將這樣的技術稱為自我調整判別器增強(adaptive discriminator augmentation,ADA)。

影像透過隨機的變形、扭轉等方式,讓機器學習不會再因為資料量的不足而無法生成具有一定品質的AI模型。
簡永昌攝影

NVIDIA繪圖研究部門副總裁David Luebke就表示,這樣的結果顯示NVIDIA依舊能採用生成對抗網路(Generative Adversarial Network,GAN)來解決AI在終端場景應用的問題,而不會受制於資料量的多寡。只是ADA是如何達到在少量資料的情況下仍能生成一個模型?在揭開ADA的面紗之前,可能要先了解GAN的運作模式。

GAN的運作基本上遵循一個原則,也就是訓練資料量越多、模型品質越好,主要GAN是由兩個合作網路所組成,一個負責建立合成影像的生成器,另一個則是根據訓練資料學習逼真影像外觀相似程度的辨別器。

而根據NVIDIA過去的經驗,通常要5-10萬張影像才能訓練出一個高品質的GAN,不過對不少應用場景要搜集到至少5萬張的影像而言,是相對困難。也因此若是靠零星的資料進行訓練,則判別器就只能單純記住訓練影像,而無法提供有效的回饋、判別給生成器,產生過度擬合(overfitting)的問題。

只要2000張圖像,就能產生2萬張圖像的模型品質

所謂過度擬合,是指說該生成的模型所提供的資料,將會過分吻合目前所擁有的數據,以致於無法提供其他資料或進行預測未來的觀察結果。對此,NVIDIA 技術行銷經理蘇家興表示這正是ADA所能發揮的地方。

ADA能將少量的影像資料透過旋轉、剪裁甚至是翻轉的過程來隨機扭曲影像,對機器來說每一個改變就如同是一個新的數據,因此就像是「聚寶盆」一般,數千張的影像資料能透過ADA的處理擴張成數倍的資料庫。但蘇家興強調,這個技術非常重視「隨機」的重要性。

NVIDIA的研究,2000張的圖像透過ADA技術,就能達到2萬張圖像所生成的AI模型品質。
簡永昌攝影

他以健身為例表示,當我們一直用同一個路徑在訓練肌肉的時候,一開始或許會有進步,不過久了以後就會被身體記憶,也因此即便增加負重、若不改變訓練模式,也可能無法望下一個階段邁進。「所以它不會是固定都旋轉45度,」蘇家興說,這也才能讓AI一直相信有許多新的素材持續被提供並學習,而整個模型也才能不受資料量的限制被創造出來。

從NVIDIA的研究來看,要達到相同模型的品質成果,過去可能需要2萬張資料、如今只需要2000張就能達到,整體來說影像數量減少了至少10倍。但是蘇家興表示,ADA的存在不是為了「加速」模型的產生,而是為了「減少」模型產生時所需要的資料量,也因此訓練時間並不會因此而縮短,但類似遊戲(Gaming)、藝術甚至是罕見疾病的醫療場景,將有機會因為ADA的技術而加速未來的發展。

NVIDIA也表示,現今這個NVIDIA Reasearch團隊有超過200位科學家,在NVIDIA企業中扮演著舉足輕重的角色,主要研究的重點在於AI、電腦視覺、自駕車等,對創辦人黃仁勳而言是相當重要的一個團隊。

原因無他,當NVIDIA有能力打造出一流的硬體如GPU以後,少了軟體的搭配滿足終端市場的需求,也無法將GPU發揮最大效益,而NVIDIA Reasearch團隊正是一群試圖解決終端應用場景的問題,不論是否會立刻在市場中發酵,但當像ADA這樣的概念分享到全世界後,NVIDIA相信不久的將來就會看見許多更接地氣的應用如雨後春筍般的冒出頭。

責任編輯:錢玉紘

延伸閱讀

每日精選科技圈重要消息