用AI聽你想聽的聲音，Google能在吵雜影片中偵測特定人聲|數位時代 BusinessNext

用AI聽你想聽的聲音，Google能在吵雜影片中偵測特定人聲

Google研究人員，利用深度學習、影像模型打造出一套系統，能夠辨識出畫面中說話人物的聲音，依照需求強化特定人士的聲音，消除其他人聲、環境音。

人類有一項特殊的能力，能夠在眾多吵雜的聲音中，辨識出我們熟悉、想聽的聲音，「過濾」掉其他雜訊，專注在說話的對象上，而機器要做到這樣的程度，在過去一直被認為是一件相對困難的事。

最近Google研究人員，利用深度學習、影像模型打造出一套系統，能夠辨識出畫面中說話人物的聲音，依照需求強化特定人士的聲音，消除其他人聲、環境音，這項功能將來可以應用在多人的電話、視訊會議中，或者在多人爭辯的政論節目中，幫助我們清楚聽見特定人士的觀點。

利用深度學習，分離不同聲音來源

「人們很擅長在吵雜的環境中，將注意力放在特定的人身上，心理上將其他人與背景聲音靜音。」Google軟體工程師Inbar Mosseri 、Oran Lang認為，這是人類一項先天的能力，可以將眾多聲音區分成各種音源，但過去許多研究都認為，這對電腦來說仍是一項重大挑戰。

根據最新一份叫「Looking to Listen at the Cocktail Party」研究，研究人員透過深度學習，同步分析影片中的影像與聲音，能單從說話者的臉部表情，就辨別出是誰在說話，觀眾只要點選畫面中特定人臉，就能聽見想聽的聲音來源。研究人員使用10萬支、總長度達2,000小時的單一講者影片，訓練系統辨識個別聲音，接著混入其他影片增加背景雜音，一步一步教懂AI辨別不同音軌，最後會產生一套模型。

完成訓練後，這套系統只要偵測到任何影片中有嘴巴在動，系統會去抓取該來源的音檔，並將其他雜音去除。而這套系統之所以厲害，是因為不僅可以去除環境中的雜音，更可以在多人大聲、激烈交雜談話的同時，還能將目標的聲音細緻地分析出來，即便過程中說話的人麥克風不小心遮住嘴型，這套系統依然可以不受干擾的執行。

聽清楚想聽的意見，政論節目將能改善閱聽品質

Google表示，目前仍在探索一切應用的可能，「我們相信這項軟體可以有許多應用，特別是在有許多人說話的吵雜環境，例如增強影片聲音辨識、視訊會議、改良助聽器。」

若這項軟體真的普及，將能改善許多生活中痛苦的經驗，Google可以將這套軟體導入自家Hangouts、Duo這類語音視訊軟體，多人會議時就能過濾背景雜音，增加理解效率，甚至也能改善傳統助聽器無法分離聲音的缺點，未來自動翻譯軟體也能因此受惠。

Google官方釋出了一段影片，畫面中兩位主播激烈的針對議題爭論，聲音重疊時幾乎難以聽清楚任何一方的意見，透過軟體強化左邊主播聲音後，就能清楚聽見單方意見。台灣今年是選舉年，各種議題的辯論將會大量出現，不論是電視政論節目、廣播、網路直播、Podcast，往後若能應用這套軟體，想必能幫助更多閱聽人舒服、有效率的，吸收各種不同的討論內容。

資料來源：Engadget、Digitaltrends、Google