打造閩南語翻譯系統為何這麼難?Meta語音翻譯技術,你該了解的5大重點
打造閩南語翻譯系統為何這麼難?Meta語音翻譯技術,你該了解的5大重點

臉書母公司Meta昨天宣布推出首創由人工智慧(AI)技術支援的閩南語(台語)、英語即時互譯系統。究竟閩南語翻譯難在哪、研發過程面臨哪些挑戰,彙整5大問答一次看懂。

Meta在推特(Twitter)發文指出,閩南話翻譯有SpeechMatrix系統支援,這是一個有136個語言組合、含括41.8萬小時語音數據的語料庫。

Meta指出,至今為止,AI翻譯主要著重於各種書寫語言上,這次新推出的「通用語言翻譯工具」(Universal Speech Translator, UST)是全球第一個由AI技術支援的「口語對口語」翻譯系統,主要用於口語相傳的語言。

 Meta 的創新資料探勘技術支援的大型語音翻譯語料庫 LASER
Meta 的創新資料探勘技術支援的大型語音翻譯語料庫 LASER。
圖/ Meta

閩南語是全球約3000種口語相傳的語言之一,由於沒有標準書寫系統,也少有專門的翻譯人員,這使他們為AI模型建立訓練數據時難度更高,也很難仰賴閩南語文本。

Meta指出,他們向所有AI社群開放此基準資料集的原始碼,並將閩南語翻譯系統納入UST,希望其他研究人員能以此為基礎繼續研發,期盼有朝一日,未來所有語言無論是否可以書寫,都不再是阻礙人們相互理解的障礙。

Q:全世界有多少人講閩南語?

閩南語是華裔群眾廣泛使用的語言,Meta統整2000年至2018年數據顯示,亞洲地區以中國大陸約2800萬人最多,其次依序為台灣約1350萬人、馬來西亞約200萬人、新加坡約150萬人、菲律賓約100萬人。

Q:打造閩南語翻譯系統為何這麼難?

以往的AI翻譯工具,必須利用大量的書寫文字來訓練AI模型,閩南語雖然是華裔族群廣泛使用的語言,但大多以口語溝通,缺乏標準的書寫文字系統,無法以傳統的方式打造翻譯工具,因此研發團隊嘗試在「通用語音翻譯工具」(UST)項目中開發新的AI翻譯技術。

Q:除了英文,閩南語還能翻譯成哪些語言?

根據Meta網站,目前這套翻譯系統只能以閩南語和英語進行即時語音翻譯,且每次只能翻譯一個完整的句子。

民眾可至Hugging Face網站使用(網站連結點這裡

Q:閩南語翻譯系統在開發過程中,面臨那些挑戰?

Meta在開發這套閩南語翻譯系統時,共面臨3大挑戰,分別是資料蒐集、模型設計以及準確度評估。

為了解決閩南語資源不足問題,研發團隊想到了2大方法,首先是利用資源充足且相似度高的中文作為「中間語言」,補足閩南語的詞彙量。研發團隊先將閩南語的語音,翻譯成中文文字,接著再翻譯成英文,成功後再新增到訓練資料庫。

二是利用「語音探勘」產生訓練資料,研發團隊使用預先訓練好的語音編碼器,系統會自動分析閩南語語音,並和相似語意的英文語音、文字進行配對。

在模型設計方面,有別傳統翻譯系統大多依賴「語音轉文字」系統,研發團隊則採用「語音轉單元翻譯」(S2UT)系統,將語音轉換成一系列的聲學單元並生成波形後,再進行解碼與翻譯。

至於準確度評估方面,研發團隊使用Meta開發的台羅(Tâi-lô)系統,將閩南語語音轉譯成標準化的拼音符號,以音節為單位來評估翻譯準確度。

同時根據名為Taiwanese Across Taiwan(TAT)的閩南語語音語料庫,建立第一個閩南語與英語雙向的語音翻譯基準資料集,未來將開放原始碼鼓勵其他研究人員合作進行閩南語語音翻譯。

值得注意的是,TAT資料庫是由台灣產官學界共同開發,收集台灣各地不同腔調的台語語音,總共錄製長達100小時語料,同時使用6支麥克風模擬各種情況,並使用約3000小時台語鄉土劇片段作為研究語料,幫助訓練系統模型,提高準確率。

Q:這項AI翻譯技術除了翻閩南語,還能做什麼?

這項AI翻譯技術,未來可望擴展於其他口說或書寫語言,Meta也將公開具資料探勘技術支援的「大型語音翻譯語料庫」(LASER),讓其他研究人員也能建立自己的語音翻譯系統。

延伸閱讀:
Meta新語音翻譯技術,讓台語直接變英語!AI怎麼做到這超酷玩意?

本文授權轉載自:中央社

關鍵字: #AI
往下滑看下一篇文章
LINE佈局內容產業!從影視製作出發,為台灣原創開新局
LINE佈局內容產業!從影視製作出發,為台灣原創開新局

LINE台灣影視開發製播部上線,投入台灣內容產業

隨著全球平台加速投入自製內容,LINE台灣看準影音能強化觀眾互動與使用者黏著度,遂啟動影視製作佈局,成立LINE台灣影視開發製播部。台灣雖擁有豐富原創能量,卻長期面臨資源整合不足與製作規模受限的挑戰。LINE希望發揮平台優勢,從影視製作切入,串聯內容、技術與社群資源,為台灣內容產業注入實質動能,讓好作品得以實現並被看見。

「我們有很多生活圈服務,也就有大量影音製播需求。一開始由各部門分頭進行,後來在2022年整合為影視開發製播部統籌所有影音主題與製作工作。」LINE台灣影視開發製播部副總經理林佳韻指出,在平台生態導入影視內容,不僅能提升品牌差異化與用戶黏著度,更是深化內容價值、拓展商業轉化的關鍵策略,讓LINE從單一流量媒介進化為具產製力的催生者。

目前影視開發製播部聚焦三大領域:IP開發、內容協作與影片製作,並統一承擔直播、短片拍攝、節目錄製等影音任務,整合LINE生活圈與平台資源,打造內容與使用者之間可持續互動的循環機制。

從孵育到製作,LINE深化內容主創角色

LINE參與內容製作的深度,從多部作品中可見一斑。紀錄片《沈睡的水下巨人》歷時超過四年籌備製作、橫跨六大海域,以8K畫質記錄台灣海底生態,題材珍稀卻推廣不易。「我們運用LINE平台的社群擴散力,讓節目觸及更多觀眾,如LINE VOOM團隊一起發想了『水裡的ASMR』直式短影音作為宣傳概念,導演也很認同,馬上扛著設備下水收音。」林佳韻分享,LINE不只播映作品,還集結社群平台經營經驗,更積極參與內容製作,讓行銷與創作相互加乘。

LINE台灣影視開發製播部副總經理林佳韻
LINE台灣影視開發製播部副總經理林佳韻
圖/ 數位時代

在原創劇集方面,LINE台灣影視開發製播部更扮演關鍵推手。改編自台灣首部描寫計程車行的散文作品《華麗計程車行》,在文策院影視媒合計畫促成下,由LINE TV主導製作。原著描繪台灣生活文化的縮影,正與LINE貼近日常的品牌定位相契合。製播部定文本後,召集編劇團隊開發劇本,透過跨部門協作,促成本劇誕生。

隨著改編經驗累積,LINE也嘗試進一步開發自有IP。例如將LINE WEBTOON上的人氣連載台漫《黑盒子》改編為電影短片,由擅長視覺特效的兔將創意影業參與製作,在初步催生出《黑盒子》 電影短片,並在高雄影展放映、拿下美國Buffalo Dreams Fantastic Film Festival影展「最佳國際短片」獎後,目前已推進至影集開發,將成為台灣首部網漫改編實作案例。

整合平台資源,LINE打造影視共創新機制

「每個影視案都獨一無二,沒有通用公式。正因為這些題材超出傳統製作想像,如果我們不做,可能也沒人做。」林佳韻直言,強化製作能力,是LINE近年積極投入的方向。自2021年起,LINE在內湖設立攝影棚,配置專業製播器材設備,錄製LINE TODAY自製節目、電商直播內容與Podcast等內容;2024年更經由參與投資選秀節目《Scool》,前往韓國觀摩選秀節目在流程與宣傳節奏上的規格與紀律,為未來跨國合作累積實戰基礎。

LINE
圖/ 數位時代

「LINE的優勢在於觸角廣、接觸面多,能在不同場景中快速實驗與迭代。」她補充,為整合資源與協作效率,LINE內部也設立「影音委員會」,統整合作需求與內容提案,協助釐清認知、評估可行性,並回歸平台生態脈絡擬定執行方案。「我們不只是財務型投資人,而是與創作者深度共創的實踐者。」

「LINE是全民的LINE,我們也希望內容能貼近大家的生活日常。」結合通訊平台與在地社群的內容參與模式,LINE正為台灣影視產業帶來前所未有的新動能。林佳韻更預告,即將推出料理競賽實境秀節目。
「過去有一段很長的時間,產業正處於集體摸索與重整價值的過渡期。現在大家會漸漸看清哪些該堅持,哪些可以調整。」投資內容不只是商業決策,更需要產業交流來發掘潛力IP與合作夥伴;因此,林佳韻也期待透過像NMEA(新媒體暨影視音發展協會)的產業交流平台,與製作方、政府資源建立跨界連結,「NMEA這幾年邀請許多國際專業者來台分享,讓長期單打獨鬥的台灣業者能參考海外經驗,是非常珍貴的資源。」

「透過LINE平台,讓台灣原創內容以多元形式被世界看見。」LINE在內容產業中的角色,正透過行動逐步累積實力,用影視說出台灣故事,邁向更大的舞台。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
電商終局戰
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓