想讓歐巴馬說什麼都可以!最新AI「對嘴」技術可偽造幾可亂真的影片內容

UW News
華盛頓大學最新研究,透過機器學習技術,讓軟體從歐巴馬過去的演講影片中,學習如何將聲音檔轉換為嘴形變化,並將嘴型移植到既有影片中。

眼見不一定可靠!過去,我們用Photoshop修出各種「照騙」,但最新AI技術,連影片中談話者的嘴型和聲音都可以修改,甚至逼真到難以從影片中察覺異狀。該研究可將聲音檔轉換為說話嘴形,並套用在其他影片中,改變影片主角原本的說話內容;也就是,雖然影片片段是真的,但說話的內容是假的。

僅分析17小時歐巴馬演講影片,所需資料量較過去小

華盛頓大學研究團隊發表一篇名為「同步歐巴馬:學習如何用聲音同步嘴型」的研究,而研究成果就是一系列美國前總統歐巴馬的「造假」影片。

該研究透過深度學習演算法,讓軟體從歐巴馬過去的演講影片中,學習如何將聲音檔轉換為嘴形變化,因此,當替影片配上新配音時,這套軟體可將新配音轉換為嘴形變化,再將嘴型移植到既有影片中。

該研究透過神經網路技術,從歐巴馬過去的演講影片中學習如何將聲音檔轉換為嘴形變化,再將嘴型移植到既有影片中。
UW News

雖然影片中的音檔確實來自歐巴馬過去說過的話,但說話場景卻完全不同。就像示範影片中,左邊是音檔來源,右邊是另一場完全不同的演講,但研究者透過演算法,將兩者結合成全新的影片。

研究者表示,之所以選擇歐巴馬作為實驗對象,原因在於網路上可輕易取得大量歐巴馬公開談話的高畫質影音檔,適合用來訓練人工智慧。

和過去研究不同的是,該軟體不需要掃描大量的演講影音資料,也不需要分析不同人說出相同句子的嘴形,才能學會轉換聲音;其僅需要既有的影音素材即可,所需成本和規模更小。

研究者指出,該研究僅分析17小時的歐巴馬演講影片就達到此成果,希望未來可以將分析所需影片長度壓縮到1小時。

希望用於優化歷史影音檔案和視訊工具

研究者表示,希望這款軟體可幫助優化歷史紀錄的影音檔案,或是用於改善Skype這類的視訊工具品質。例如,用戶可以收集他們自己說話的影片,並用以訓練軟體,之後當他們使用視訊工具時,影像便能自動符合說話內容,因此就算網路連線品質不佳,也能讓視訊畫面保持順暢。

不過,外界也擔心,這套軟體若遭惡意人士利用,後果不堪設想。例如,可先利用聲音合成技術模仿出歐巴馬的聲音,再加上這套已經訓練好、可將歐巴馬聲音轉換為嘴形的模型,即可讓歐巴馬說出從未說過的話。

事實上,人工智慧新創Lyrebird已經透過機器學習開發出聲音模擬技術。該公司號稱,只要1分鐘的聲音樣本,即可模仿任何人說話。

資料來源:The VergePC MagGeekWire

深度學習
Deep Learning
「深度學習」是機器學習的分支,源於類神經網絡,簡單來說,即是大量的訓練樣本、龐大的計算能力、靈巧的神經網路結構設計三者結合,目前深度學習已深入應運於語音辨識、影像辨識,Google AlphaGo也是奠基於深度學習,而能掌握抽象概念。讓電腦進行深度學習主要有三個步驟:設定好類神經網路架構、訂出學習目標、開始學習。 (來源: 數位時代台灣資料科學年會 )
追蹤我們