OpenAI新技術「聲音引擎」：只要15秒語音，你就能被AI複製！一文揭露隱藏大危機|數位時代 BusinessNext

OpenAI新技術「聲音引擎」：只要15秒語音，你就能被AI複製！一文揭露隱藏大危機

OpenAI又帶來生成式AI領域的新成果，揭露一款只要15秒語音素材，就能生成與本尊相差無幾聲音的Voice Engine（聲音引擎）。

繼前陣子端出能以假亂真生成寫實影片的AI工具Sora後，OpenAI再次端出了新的研究成果，揭露一款只要短短15秒語音素材，就能生成任何與本人聲音極為相似音訊的新工具。這能輕鬆「幫別人說話」的技術，也讓他們決定在正式推出前，要好好思考如何避免潛在風險。

語音引擎（Voice Engine）是什麼？為什麼OpenAI小心翼翼測試？

根據OpenAI在官網上揭露的訊息，這項技術名為「語音引擎」（Voice Engine），原先主要是用於文字轉語音技術及ChatGPT朗讀功能中的預設語音，提供系統約15秒的材料後，便可以讓AI使用你想要的聲音念出輸入的各種文本。OpenAI也在官網上提供了素材與生成結果的對照音檔。

OpenAI表示，他們想要進一步了解這項技術的應用潛力，但也深知語音生成一旦遭到濫用，後果將不堪設想，於是從去年底開始，他們決定與一小部分的合作夥伴進行私下測試。目前獲得許可的開發者包括教育科技公司Age of Learning、AI影片創作平台HeyGen、醫療軟體開發商Dimagi等公司，目前只有約10間公司能夠測試這項技術。

所有獲得許可的合作夥伴都必須遵守其政策，代表不得以此技術冒用他人或組織身分，並且語音素材的提供者必須明確知道聲音用途，同時需要告知聽眾這些聲音是AI生成的，而非真人。

「基於我們對AI的態度以及承諾，我們選擇提供預覽但不廣泛發布這項技術。」OpenAI表示，他們希望Voice Engine這次預覽能夠突顯其潛力，也能促進社會能夠擁有更強大的抵禦能力，面對愈來愈逼真的生成式AI技術。

語音引擎可以應用在哪裡？

至於透過與合作夥伴的測試，目前OpenAI發掘了哪些應用可能性？OpenAI也在官網上提供一些例子：

1. 語音朗讀功能： 可以用更自然、有情感的聲音為兒童或不看書的人提供語音教學內容，讓更廣泛的族群能夠用更輕鬆的方式，吸收書本內的知識。

2. 翻譯影片或Podcast： 創作者可以輸入聲音，為自己的影片生成眾多語言版本，以接觸到更多的潛在受眾， 並且在翻譯時會保留母語口音 。

3. 為偏遠地區建立溝通橋樑： 能夠為偏遠地區的人們提供各種即時的諮詢服務，甚至是使用一些當地非正式語言進行互動式的問答。

4. 協助失聲患者： 讓無法說話的障礙人士透過語音引擎，依然能夠以語音溝通，並選擇最適合自己的自然聲音。目前還有研究團隊測試如何利用這項技術為失語症患者提供協助。

延伸閱讀：Google在台灣推「Gemini學院」！首波瞄準1000名老師，還有哪些AI種子計畫？

語音引擎有哪些風險？OpenAI怎麼防範？

OpenAI表示，他們非常了解這項技術可能遭到惡意使用的可能性，正在與政府、媒體、娛樂、教育等各個領域的國內外合作夥伴一同努力，並積極接納他們提供的回饋。

根據《Wired》報導， AI生成的逼真語言甚至得以通過銀行的語音認證功能 ， 詐騙集團也可能利用這項工具冒用親人聲音，誘使他人付款或轉帳 。尤其美國總統大選即將在2024年11月登場，針對政客的AI攻擊更是層出不窮。

例如今年初，美國政府拜登的聲音就遭到冒用，在捏造的電話語音中呼籲選民不要參加初選投票，也讓白宮團隊出面澄清這並非拜登總統的錄音，是有心人士刻意破壞選舉。

為了防範AI語音技術的濫用，OpenAI目前除了在使用政策上進行規範外，還實施了一套安全措施，包括：為所有生成內容添加浮水印，追蹤所有生成內容的使用方式，同時還會推出禁止名單，防止部分公眾人物、知名人士的聲音遭到利用。

延伸閱讀：全球首位AI工程師「Devin」誕生！5分鐘做出網站，還能debug，背後10人團隊揭秘

資料來源：The Verge、Wired、TechCrunch

責任編輯：林美欣