Adobe展示「VoCo」語音編輯器：讓你打字就能修改錄音|數位時代 BusinessNext

Adobe展示「VoCo」語音編輯器：讓你打字就能修改錄音

Adobe在MAX大會中，發表語音編輯器VoCo，編輯聲音將如同編輯文字一樣的直覺且只需要20分鐘的聲音檔便可以模擬出以假亂真的聲音，繼在圖像編輯的卓越成就，Adobe又將掀起一股「語音」上革命發展。

Adobe昨(3)日在加州聖地牙哥舉辦的2016 MAX大會中，發表了新計畫「語音編輯器VoCo」，繼Adobe在圖像編輯的卓越成就，現又將掀起一股「語音」上革命性發展。

編輯聲音如同編輯文字一樣直覺

Adobe 軟體開發者Zeyu Jin，在會中示範取出一段演講錄音檔，並在其中輸入欲修改文字在下方的輸入欄，完全不需要使用者的介入操作（設定時間戳記），系統會找到相對應的演講文字，並且自動修改為新更改的文字內容，軟體不但會根據先前的聲音模擬出與發聲者相同的聲音，並且透過演算法使整體語音內容語調順暢而不突兀，依照普通人的聽覺幾乎難以察覺其中的差異處。

就如同Jin說的，Photoshop之於圖片就像是VoCo之於聲音一樣。VoCo解決的是像是演講者在錄製音檔後，想在其中加入（或刪減）字詞，使整體的演講內容更加完整，透過VoCo的聲音模擬，便不需要再重複錄製欲修改的演講部分，不僅耗時且音調上連接不易，現只需透過文字輸入，便能夠馬上完成語音修正，使用上更趨於直覺、便利。

巧妙的聲音模擬

上述的神奇效果，來自於VoCo強大的「聲音轉換(voice conversion)」也就是所謂的聲音模擬系統，只要有20分鐘的音檔，VoCo便可以根據發聲者的聲音，模擬出一模一樣音頻，這樣的作法就像是變魔法似的使說話者說出他根本沒有說過的話。

聲音模擬的技術可能將會是未來的趨勢，Adobe並不是第一位踏入這塊領域，之前Google旗下主要發展人工智慧的Deepmind就已在他的官網上，展示聲音模擬的成果，不僅人聲連樂器的聲音也可以模仿得唯妙唯肖。

不可忽視的道德問題

VoCo的出現為現存的使用者帶來莫大的便利性，像是現在逐漸崛起的有聲書市場、語音部落客等，透過簡易編輯手法，可以讓語音產量更加快速方面，甚至取代掉配音員這樣的行業，只需要一段將近20分鐘配音員的語音DEMO，就可以省去大筆雇請配音員、配音師的花費和困擾，讓未來的配音市場進入門檻將對較低，但相對的這同時也衍生出許多的道德問題。

當製作欺騙大眾的語音更加容易且成本降低、可以運用的範圍更加廣闊，所衍生的社會成本將不容小覷，不過就另外一方面而言，就像當初Photoshop帶給人們的轉變一樣，方便的圖象編輯產生出更難以捉模真實性的圖像，但如今我們也學會對所見的圖片保持一定程度的真偽性討論空間。

目前尚只是原型階段

目前展示在Adobe Sneaks的VoCo只是個原型，最後能否正式推出及推出時間還是未定數，不過依照過去的經驗，許多現在已發佈的產品都曾在Adobe Sneaks展示其最初的原型，相信在不久後，VoCo也會正式與大家見面。

資料來源：Techcrunch、The Verge、Creative Bloq