多了這項祕密武器，Google Assistant聽起來更有人味|數位時代 BusinessNext

Google在今(5)日凌晨舉辦新品發表會，推出新的Pixel手機、Google Home、耳機Google Pixel Buds等，而這些裝置都有一個共通點，就是可以使用智慧語音助理Google Assistant，而Google也結合了新的技術，要讓語音助理的聲音聽起來更有「人味」。

1000倍的速度生成聲音，Google Assistant少了機械味

DeepMind的「WaveNet」系統，是去年Google推出了新的聲音生成工具，它並非靠著龐大的詞彙庫生成機械式聲音，而是使用深層神經網絡去建造聲音模型，模擬出來的聲音少了機械味更加自然，目前也導入最新版本的Google Assistant中。

目前建造語音助理聲音的主流做法，是由單個配音員錄製數個小時的語音檔案作為基底，再將這些錄音分割成小塊，依據需要組合成一個句子，因此聽起來會比較不那麼自然、連貫，過去WaveNet剛推出的時候，需要花上整整一秒才能產生0.02秒的聲音，所以一句兩秒鐘的「在仁愛路左轉」就需要花上快兩分鐘生成相當不實用；改良版的WaveNet可以在一秒鐘生成20秒的音檔，比原始方法快上1000倍，甚至還能以更高的採樣頻率建構聲音，每秒可以做出高達24,000個聲音樣本。

百度「Deep Voice 2」也能模仿人聲、口音

WaveNet使用卷積神經網絡去觀察語句中的結構，再去生成出新的樣本，特別的是生成出的新樣本都會考慮前一個樣本的屬性，因此產生出來的聲音、語調聽起來就連貫許多，也能大大減少機械感。因此未來如果想要語音助理講台灣口音不必辛苦的錄製檔案，只需要給WaveNet幾個小時台灣口音的樣本，它就能揣摩當中的細微之處，但目前新版本的Google Assistant僅支援美式英語與日語。

過去中國搜尋巨頭百度也曾研發一套能模仿人聲、口音的語音系統「Deep Voice 2」，能學習一個人聲音細微的差別，駕馭上百種不同口音，最厲害的是，Deep Voice 2只需要半小時的音檔資料就能完成學習。

目前百度的「Deep Voice 2」跟DeepMind的「WaveNet」都已經可以做到用深度學習的方式，讓傳統認為死板的機器語音增添個性，甚至形成一套風格，而一般較為熟悉的蘋果語音助理Siri，雖已可以做到模仿區域性口音，但是透過較傳統的方式，耗時上千小時的真人音檔錄製，且工程師還需花費較長時間做調校。

智慧語音助理除了要夠聰明，口音、語調能夠因地制宜也成為趨勢，除了用戶聽起來舒服外，透過不同的聲音來朗誦電子書、新聞，或許也是未來內容製作的新趨勢。