Adobe展示「VoCo」語音編輯器:讓你打字就能修改錄音

2016.11.04 by
林伶芝
數位時代翻自Adobe Max官方網站
Adobe在MAX大會中,發表語音編輯器VoCo,編輯聲音將如同編輯文字一樣的直覺且只需要20分鐘的聲音檔便可以模擬出以假亂真的聲音,繼在圖像編輯的卓越成就,Adobe又將掀起一股「語音」上革命發展。

Adobe昨(3)日在加州聖地牙哥舉辦的2016 MAX大會中,發表了新計畫「語音編輯器VoCo」,繼Adobe在圖像編輯的卓越成就,現又將掀起一股「語音」上革命性發展。

編輯聲音如同編輯文字一樣直覺

Adobe 軟體開發者Zeyu Jin,在會中示範取出一段演講錄音檔,並在其中輸入欲修改文字在下方的輸入欄,完全不需要使用者的介入操作(設定時間戳記),系統會找到相對應的演講文字,並且自動修改為新更改的文字內容,軟體不但會根據先前的聲音模擬出與發聲者相同的聲音,並且透過演算法使整體語音內容語調順暢而不突兀,依照普通人的聽覺幾乎難以察覺其中的差異處。

就如同Jin說的,Photoshop之於圖片就像是VoCo之於聲音一樣。VoCo解決的是像是演講者在錄製音檔後,想在其中加入(或刪減)字詞,使整體的演講內容更加完整,透過VoCo的聲音模擬,便不需要再重複錄製欲修改的演講部分,不僅耗時且音調上連接不易,現只需透過文字輸入,便能夠馬上完成語音修正,使用上更趨於直覺、便利。

巧妙的聲音模擬

上述的神奇效果,來自於VoCo強大的「聲音轉換(voice conversion)」也就是所謂的聲音模擬系統,只要有20分鐘的音檔,VoCo便可以根據發聲者的聲音,模擬出一模一樣音頻,這樣的作法就像是變魔法似的使說話者說出他根本沒有說過的話。

聲音模擬的技術可能將會是未來的趨勢,Adobe並不是第一位踏入這塊領域,之前Google旗下主要發展人工智慧的Deepmind就已在他的官網上,展示聲音模擬的成果,不僅人聲連樂器的聲音也可以模仿得唯妙唯肖。

不可忽視的道德問題

VoCo的出現為現存的使用者帶來莫大的便利性,像是現在逐漸崛起的有聲書市場、語音部落客等,透過簡易編輯手法,可以讓語音產量更加快速方面,甚至取代掉配音員這樣的行業,只需要一段將近20分鐘配音員的語音DEMO,就可以省去大筆雇請配音員、配音師的花費和困擾,讓未來的配音市場進入門檻將對較低,但相對的這同時也衍生出許多的道德問題。

當製作欺騙大眾的語音更加容易且成本降低、可以運用的範圍更加廣闊,所衍生的社會成本將不容小覷,不過就另外一方面而言,就像當初Photoshop帶給人們的轉變一樣,方便的圖象編輯產生出更難以捉模真實性的圖像,但如今我們也學會對所見的圖片保持一定程度的真偽性討論空間。

目前尚只是原型階段

目前展示在Adobe Sneaks的VoCo只是個原型,最後能否正式推出及推出時間還是未定數,不過依照過去的經驗,許多現在已發佈的產品都曾在Adobe Sneaks展示其最初的原型,相信在不久後,VoCo也會正式與大家見面。

資料來源:TechcrunchThe VergeCreative Bloq

每日精選科技圈重要消息