台灣如何找到AI語音發展活路?

2018.10.29 by
錢思敏
錢思敏 查看更多文章

台灣經濟研究院副研究員,淡江企管系兼任助理教授。主要關懷包含智慧城市、政府開放資料、區域產業政策、產業用地與區域發展、經濟自由化、電競等在內之產業政策等相關研究議題。

metamorworks via shutterstock
台灣尚未出現以台灣口音資料庫所做的AI系統,為什麼?

Google語音助理上週正式上線,濃濃的台灣味更讓人好奇Google是怎麼運用AI開發出這個能夠理解台灣人說話口音和語意的助理。Google目前有1/5的搜尋是用語音方式,因此,媒體猜測Google這次推出的助理,其人工智慧的訓練資料是來自於台灣人使用OK google所累積的語音資料,這並不令人意外,畢竟Google手中既有的現成資料就是來自於其搜尋引擎所累績的歷史紀錄。

Piotr Swat via shutterstock

藉由對話式的平台與機器溝通已經成為主流,對話式平台無論是搭載在智慧音箱、語音助理或是智慧型手機等智慧裝置上,最重要的是聽得清楚講話的人在說些甚麼,而就算是漢語,也是有所謂的北京腔、上海腔、台灣腔等各種腔調和用法。

台灣尚未出現以台灣口音資料庫所做的AI系統,為什麼?

現在雖然有不少大廠推出了智慧音箱,例如遠傳電信的問問所運用的就是大陸出門問問的AI語音解決方案,而中國大陸尚有科大訊飛、百度、阿里雲、騰訊等推出AI語音辨識系統,但是台灣尚未出現一個以台灣口音辨識資料庫所做的AI系統,何以至此呢?

雖然國內AI界都同意自然語言處理(NLP)是台灣推動AI人機介面必須要仰賴的技術,但是最重要、最基礎的第一步,需要累積數據進行語音辨識訓練的部分,據了解國內大廠似乎對於藉由AI學習台灣口音的語音辨識卻是想都不敢想,主要原因是取得語音內容以及進行語音內容的標記,因無資料來源而不知從何下手

這一步首先需要取得語音內容資料,接下來就是需要進行語音內容的標記,而標記需要大量的人力,這是基本工,也是最為困難的一步。

相對於文字內容數據唾手可得,而且可以幾乎不用成本的搜羅網路上的文字數據,使得文字客服AI新創如雨後春筍般的成立,而能夠真正應用語音辨識的AI,現在除了Google或是Apple因為有OK Google和Siri能夠持續蒐集語音資料持續進行機器學習之外,目前台灣智慧終端裝置能夠選擇應用的仍然只有來自於對岸的語音辨識AI,例如科大訊飛等AI Solution,兩岸口音的差異造成的消費者體驗仍然需要持續改善。

台灣沒有入口網站、搜尋引擎,沒有國際大廠的資源,就沒有了可以用來訓練語音識別的數據,難道這樣就要放棄了可能的AI發展機會嗎?

有人認為掌握語音的電信業者,可以做為語音辨識的數據資料庫的來源,但筆者認為姑且不論能否可以合法使用這樣的數據資料,光是語音資料的標記,恐怕就要耗費相當龐大的人力和成本。

其實,若以語音資料與其內容標記的完備性作為進入語音辨識的目標來看,台灣特有的電視節目中的字幕可以快速解決掉語音標記的問題,但關鍵在於如何可以「快速」取得使用電視節目累積語音資料。

從公開的公共資源著手

筆者建議可以運用現有的資源,從公開的公共資源著手,特別是目前公共電視教育影音公播網內提供包括優質戲劇、紀錄片暨環境教育、生活與人文、兒童少年等四類節目,共有超過1300集以上的節目,且持續增加影片量當中,從公共電視來的資源應該是成本相對較低又能快速進展的作法。若要持續擴展語音訓練的規模,或者可以考慮蒐集有打上字幕的YouTube自製影片,又或者需要花上一些費用跟各大電視台洽談取得其影音節目內容來進行台灣人口音的語音辨識的訓練。

結語

除了智慧終端裝置的AI人機對話式介面需要運用語音作為引導之外,語音辨識除了自然語言處理之外,還有許多可能的應用,像是語音轉文字的紀錄擅打,目前仍然非常仰賴人工作業,又像是電視台的節目還是需要人工來進行字幕的標記。

也就是說,當電視台掌握這樣的資源,若也能夠投入於進行語音辨識的AI應用,對電視台本身也是有價值的,在電視媒體受到網路媒體的競爭廣告流量節節敗退的今天,電視台業者應該要與具有AI能量的新創或專家合作,思考如何創造語音更多的價值。

《數位時代》長期徵稿,針對時事科技議題,需要您的獨特觀點,歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw,文長至少800字,請附上個人100字內簡介,文章若採用將經編輯潤飾,如需改標會與您討論。

(觀點文章呈現多元意見,不代表《數位時代》的立場。)

每日精選科技圈重要消息

本網站內容未經允許,不得轉載。 若有文章授權需求請填寫 申請表單