多了這項祕密武器,Google Assistant聽起來更有人味

2017.10.05 by
高敬原
多了這項祕密武器,Google Assistant聽起來更有人味
shutterstock
Google在智慧語音助理Google Assistant結合DeepMind的「WaveNet」系統,讓語音助理的聲音聽起來更有「人味」。

Google在今(5)日凌晨舉辦新品發表會,推出新的Pixel手機、Google Home、耳機Google Pixel Buds等,而這些裝置都有一個共通點,就是可以使用智慧語音助理Google Assistant,而Google也結合了新的技術,要讓語音助理的聲音聽起來更有「人味」。

1000倍的速度生成聲音,Google Assistant少了機械味

DeepMind的「WaveNet」系統,是去年Google推出了新的聲音生成工具,它並非靠著龐大的詞彙庫生成機械式聲音,而是使用深層神經網絡去建造聲音模型,模擬出來的聲音少了機械味更加自然,目前也導入最新版本的Google Assistant中。

目前建造語音助理聲音的主流做法,是由單個配音員錄製數個小時的語音檔案作為基底,再將這些錄音分割成小塊,依據需要組合成一個句子,因此聽起來會比較不那麼自然、連貫,過去WaveNet剛推出的時候,需要花上整整一秒才能產生0.02秒的聲音,所以一句兩秒鐘的「在仁愛路左轉」就需要花上快兩分鐘生成相當不實用;改良版的WaveNet可以在一秒鐘生成20秒的音檔,比原始方法快上1000倍,甚至還能以更高的採樣頻率建構聲音,每秒可以做出高達24,000個聲音樣本。

Deepmind

百度「Deep Voice 2」也能模仿人聲、口音

WaveNet使用卷積神經網絡去觀察語句中的結構,再去生成出新的樣本,特別的是生成出的新樣本都會考慮前一個樣本的屬性,因此產生出來的聲音、語調聽起來就連貫許多,也能大大減少機械感。因此未來如果想要語音助理講台灣口音不必辛苦的錄製檔案,只需要給WaveNet幾個小時台灣口音的樣本,它就能揣摩當中的細微之處,但目前新版本的Google Assistant僅支援美式英語與日語。

過去中國搜尋巨頭百度也曾研發一套能模仿人聲、口音的語音系統「Deep Voice 2」,能學習一個人聲音細微的差別,駕馭上百種不同口音,最厲害的是,Deep Voice 2只需要半小時的音檔資料就能完成學習。

目前百度的「Deep Voice 2」跟DeepMind的「WaveNet」都已經可以做到用深度學習的方式,讓傳統認為死板的機器語音增添個性,甚至形成一套風格,而一般較為熟悉的蘋果語音助理Siri,雖已可以做到模仿區域性口音,但是透過較傳統的方式,耗時上千小時的真人音檔錄製,且工程師還需花費較長時間做調校。

智慧語音助理除了要夠聰明,口音、語調能夠因地制宜也成為趨勢,除了用戶聽起來舒服外,透過不同的聲音來朗誦電子書、新聞,或許也是未來內容製作的新趨勢。

延伸閱讀

每日精選科技圈重要消息