把元宇宙打造成零溝通障礙的烏托邦! Meta新技術可翻譯128種語言
把元宇宙打造成零溝通障礙的烏托邦! Meta新技術可翻譯128種語言

作為元宇宙最堅定的支援者之一,Facebook在上個月宣布改名Meta,此後便新動作不斷,先是推出了一個觸覺手套,試圖讓人們在VR世界中也能體驗到觸覺變化。

觸覺之後,Meta又盯上了語言,它要讓人們在虛擬世界中也可以無障礙溝通,哪怕雙方使用的語言不同,你說英語,我說中文都能互相理解。

就這樣XLS-R來了,它是Meta最近發布的一個AI語言處理模型,最高能識別128種語言,目前已經公佈了網頁體驗版。

XLS-R
XLS-R網頁體驗版僅支援語音輸入
圖/ 愛范兒

體驗版的功能有一定缺失,僅支援將22種語言翻譯為16種語言,我試了下最常見的英譯中,一段7秒左右英文語音,XLS-R還是能相對準確地識別,中文翻譯和英文識別都基本正確,兩者耗時都在1.4秒左右,並不算短。

XLS-R
XLS-R識別同一段語音的英文和中文翻譯結果
圖/ 愛范兒

對比市面上常見語音翻譯應用,這個速度和轉譯表現其實中規中矩,都對口語清晰度有要求,一旦語速稍微快一些,就比較難理解,轉譯會出錯。

XLS-R的潛力體現在多語言通用AI模型上,據Meta該技術基於wac2vec2.0預訓練模型,能將語音拆成25毫秒的基本單元來分析,利用上下文轉換語音內容,提升識別準確度。

之後Meta又對wac2vec2.0技術進行了多次調整,嘗試處理多種語言,轉換準確率提升了不少,經過通過436000小時的公開錄音訓練後,才有如今的XLS-R。

XLS-R
XLS-R識別單詞錯誤率更低
圖/ 愛范兒

XLS-R僅僅用一種語言模型就可以轉換128種語言,和特殊領域使用特殊模型的常見做法不同,極大地提升了通用性。在官方部落格中,Meta表示它們的目標是用單一模型識別全球7000多種語言,從而改進轉換算法。

這是一個新的開始,離真正成為Meta所設想的虛擬世界基礎組成部分還比較難,這不僅僅和技術有關,裝置演算力也是限制。

作為同在在自然語言識別領域擁有大量技術儲備的Google,其實比Meta更早在消費級裝置上支援多語種翻譯功能,Pixel6系列支援live Translate功能,可以在聊天軟體中進行翻譯,無障礙地與外語朋友交流。

XLS-R
圖/ 愛范兒

只是live Translate功能支援的語言並不算多,主要還是英語、德語、日語之間的翻譯,哪怕Pixel6所使用的Tensor晶片在AI性能方面已經是冠絕全球,達到了驍龍888+的三倍。

只有聯網live Translate功能才能做到支援48種語言,而使用雲端計算技術的Google翻譯也僅支援108種語言,離7000種語言很遠。

元宇宙離我們仍然有一段距離,不過XLS-R等技術作為Meta口中虛擬世界的基礎建設之一,或許能在其他領域發揮作用,現在它已經發布了XLS-R預訓練模型的微調教程,讓業內人士可以基於它進行微調以便應用到具體的工作當中。

或許不久之後,我們能看到越來越多的應用支援更多語種的語音轉譯功能。

本文授權轉載自:愛范兒 ifanr

責任編輯:傅珮晴、錢玉紘

關鍵字: #VR_AR_MR #元宇宙

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓