有了DeepMind這個技術,機器說話將會更像人
有了DeepMind這個技術,機器說話將會更像人

繼用人工智慧下圍棋、節省電費、醫療應用後,Google旗下人工智慧公司DeepMind的最新一步是——讓機器說話更像人。

Google DeepMind日前發表了最新研究成果WaveNet,這個深度生成模型可以模擬任何人類的聲音,而且比現有的文本轉語音(Text-to-Speech)系統聽起來更自然,讓電腦所生成的語音,與人類聲音之間的差距減少50%。

會說話的機器

「讓人類跟機器交談,是人機互動領域一直以來的夢想。」

DeepMind指出,過去幾年來,歸功於深度類神經網絡(deep neural networks),電腦已經革新對自然語音的理解能力,例如Google語音搜尋。

不過,目前透過電腦生成語音,通常是透過語音合成(speech synthesis)或是文本轉語音(TTS)。舉例來說,是先由單一個人錄製數個短語音片段,集成一個大量的資料庫後,再把這些字詞組合成完整的一句話。但這也使得修改語音變得困難,像是無法切換成一個不同的說話者,或改變語音的強調音節或說話情緒等。

WaveNet的技術則是直接將音頻信號的原始波形建模,一次處理一個樣本。這讓WaveNet能夠產出聽起來較為自然的聲音,也意味著可以建模幾乎任何類型的音頻,包括音樂。

wavenet01
圖/ Google DeepMind網站
wavenet02
圖/ Google DeepMind網站
wavenet03
WaveNet透過實際產生聲波,而非語言本身,將文本轉換成聲音。
圖/ Google DeepMind網站

DeepMind的WaveNet技術無疑是電腦合成語音領域的一大突破。不過這套系統需要強大的運算能力來合成語音,因此短時間內還不會應用到現實情境,或是Google產品當中。「我們很期待看到未來我們可以拿它來做什麼。」DeepMind表示。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓