機器人講話也能帶感情,文字直接轉成聲音!NVIDIA展示AI語音合成技術成果
機器人講話也能帶感情,文字直接轉成聲音!NVIDIA展示AI語音合成技術成果

語音應用讓人與人之間的互動有了改變,也讓生活變得更加有趣。NVIDIA深度學習應用研究部門副總裁Bryan Catanzaro表示,NVIDIA一直在思索如何透過AI強化人與電腦的互動,而「語音」技術的強化,就是其中一個重要指標。

五年前Amazon Alexa智慧音箱的出現,重新定義了人與機器互動的方式,可以命令Alexa播放音樂、開冷氣,甚至和Alexa聊天,人們可以透過語音做更多的事情,在科技應用的重要性逐漸增加。

除了讓機器人聽懂人話,NVIDIA表示,下一步就是要賦予機器人帶有「感情」的說話能力,將人機介面帶往更高層次。

AI聲音技術加持,讓機器說話帶有「感情」

而這有賴於表達性語言合成技術,透過對話式人工智慧模型為角色、虛擬助理及個人化數位分身產生聲音。例如透過NVIDIA RAD-TTS技術,使用個人說話的聲音來訓練文字轉語音模型,即能將任何文字提示變成說話者的聲音。

此外,該技術還支援聲音轉換功能,例如影片中是 A 在說話 (甚至是唱歌),觀眾們聽到的卻是 B 的聲音。NVIDIA談到,RAD-TTS設計靈感是將人聲當成一種樂器,使用者便能夠逐幀微調合成聲音的音調、持續時間和能量。

例如應用在電影製作中,導演可錄製自己讀出影片腳本的聲音,接著用 AI 模型將說話內容變成女性旁白者的聲音。導演可以再運用這個基本的旁白內容,像配音員一樣指導 AI 並進行調整,讓合成出來的語音強調特定字眼、修改旁白節奏,以更貼切地表達影片的調性。

不只配音,其中文字轉語音的功能還能用在遊戲、協助聲音機能或語言機能障礙者,或幫助使用者用將自己的聲音翻譯不同語言;甚至還能重現著名歌手的表演,不僅可以配合歌曲旋律,還能配合人聲背後所表達的情感。

圖/ NVIDIA

表達性語言合成只是NVIDIA Research 團隊在對話式 AI 的其中一項研究,這個領域還包括自然語言處理、自動語音辨識、關鍵字偵測、音訊增強等。這項先進研究成果的部分內容已透過 NVIDIA NeMo 工具套件成為開放原始碼,可以在 NGC 容器及其它軟體中心取得,並經最佳化調整,能在 NVIDIA GPU 上高效執行。

不過他也透露,目前AI語音最大挑戰在於延遲性問題,由於機器回應的速度不夠即時,連帶會影響人機互動的感受,讓對話看起來較沒有這麼自然。該公司也正積極努力克服這項技術挑戰,隨著技術的更迭與數據資料的累積、分析,相信這個問題將很快會被解決。

【熱門焦點】

麥當勞APP首度改版!3大功能亮相,點點卡變行動版、免帶卡就能賺積分

取件「得來速」、維修致敬「鼎泰豐」,微星旗艦展服中心下一步要做什麼?

最新9月號雜誌《2021年台灣網紅生態全解析》馬上購:傳送門
「電子雜誌」輕鬆讀:傳送門

責任編輯:錢玉紘

關鍵字: #Nvidia

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓