🔥每日精選最重要區塊鏈新聞、第一手採訪 👉歡迎加入《Web3+》官方Telegram
效能快20倍!Meta推語音合成AI「Voicebox」
社群媒體Facebook母公司Meta,近日推出了一款「突破性」的語音合成AI「Voicebox」,號稱效能比起其他同類型的人工智慧模型快上20倍,且表現相當穩定。
「Voicebox」系統採用了非傳統的語音合成系統(text-to-speech,簡稱TTS)架構,語音合成系統能將書寫文字轉換為語音,常用於語音助理技術;「Voicebox」的技術是類似於OpenAI的ChatGPT或Google的Bard,聲稱是首個能夠在不特別訓練的情況下,完成語音生成任務並具有最先進效能的模型。
Voicebox的優勢在於,它是透過上下文學習,來解決文本內容的語音任務。與一般的TTS模型不同,Voicebox使用了包括了英語、法語、西班牙語、德語、波蘭語和葡萄牙語,等六種語言公開的有聲書籍音檔和文字稿,作為數據訓練的依據,
Voicebox可以在這六種語言中,合成語音、消除瞬間噪音、編輯內容,在跨語言之間轉換音頻風格,並生成多樣化的語音,讓系統產生的語音更加自然流暢。
語音工具太強大,真假訊息恐更難分辨
語音合成,一直是人工智慧領域中的一大難題,這主要是因為TTS模型需要大量的數據集進行訓練。
現有的TTS系統,使用的是高度精選且經過標記的數據集,以確保語音合成的品質。然而,Meta透過一種新穎的訓練方案,克服了這個限制。他們放棄使用標記和精選,而是採用一種能夠「填充」音頻資料的架構。
根據Meta發表的研究論文提到,他訓練的Voicebox系統,可以僅使用所需的輸出文本和三秒鐘的音頻做剪輯,來完成所有語音輸出的工作。
美國總統大選即將到來,如此強大的語音生成功能,可能將再次考驗,網路上假訊息檢測的極限。
例如,美國前總統川普(Donald Trump),目前面臨指控,稱他在卸任後對政府機密資料處理不當。在針對他的案件中,引用了包含音檔的證據,據稱他在錄音中承認了潛在的不法行為。
雖然目前沒有跡象表明,這位前總統打算否認音檔文件中描述的內容,但他的案例顯示,數據完整性是美國法律體系的核心,也是其民主的核心。
Voicebox並非第一款AI語音合成工具,但目前看起來可能是最強大的工具之一。
因此,Meta也開發了一種工具,來確定語音是否是由Voicebox生成,該公司聲稱,它可以簡單地檢測真假音頻之間的差異。根據官方部落格文章寫下:「與其他強大的新人工智慧創新一樣,我們知道,這項技術帶來了濫用和意外傷害的可能性。」
Meta表示,內部建立了一個高效的分類器,可以區分Voicebox生成的語音和音頻,以此降低未來可能存在的風險。
隨著人工智慧技術的不斷發展,語音合成技術的應用前景越來越廣泛。在加密貨幣交易和社群等領域,語音合成技術都有其獨特的應用價值。Voicebox的推出,不僅在語音合成技術方面取得了突破,提升效能與穩定性,同時也為語音合成技術的應用開發帶來了更多可能。
🔥每日精選最重要區塊鏈新聞、第一手採訪 👉歡迎加入《Web3+》官方Telegram
資料來源:Cointelegraph、Meta、Engadget、VoiceBox
核稿編輯:高敬原
