11

會議紀錄不再是苦差事!AI可辨識70種語言產出逐字稿,還能聽出機器「怪怪的」

迪威智能團隊將清大、台大累積30年聲學辨識的研究與開發經驗商業化,結合人工智慧的最新技術,可適應不同環境收錄的不同人聲、機械聲。

全球掀起AI浪潮,在這波浪潮下,有許多台灣企業長期在專注AI領域開發,並有了令人振奮的成果,為此,《數位時代》與數位發展部合作「2023台灣AI大賞」,評選出對AI產業具有影響力的台灣團隊與專案。以下為獲獎團隊 迪威智能DeepWave 的故事:

對於內容產製者來說,無論是電影、音樂或者 YouTube 中,都非常需要將吵雜的背景噪音移除,使觀眾能享受到更好的影片品質;另外,在每天的各種例行會議中,也只能用人工的方式,透過聽打,將會議中的對話轉成文字版的會議記錄。這些應用情境在過去都難以處理,不但耗費大量的專注力,效果可能也不好。

如何將音頻(Audio)中的特定資訊如人類對話或機器異音,有效地過濾出來,正是聲學辨識領域最主要想解決的難題。

但這門技術卻不簡單,比方語音辨識等傳統的聲學辨識應用,在噪音環境、多人對話的錄音辨識度較低,往往需要後續大量的人工處理,效率很低。傳統的降噪技術也無法很好地分離背景噪音和想要保留的聲音,導致一些有意義的聲音訊號被誤刪。

運用人工智慧,能更有效地處理聲音

迪威智能注意到了這些技術上的困境,並開始著手以人工智慧技術來解決聲學辨識的問題。創辦迪威智能的張智星,在聲學辨識領域已經累積了將近30年的經驗,2019年結合台大資訊工程系多媒體資訊檢索實驗室 MIRLab 的團隊,與技術長葉子雋、執行長林智源將多年的研究成果與最新的AI技術,進一步投入商業應用,希望從聲音的角度,為各大產業找到新的觀點。

透過深度學習模型,迪威智能可以從聲音檔中辨識出各種人聲、機械聲的特徵,能比傳統以聲音頻率為基礎的處理方式,過濾出更完整的聲音。這樣的方式也具有很強的適應性,即便是不同的錄音環境、不同的多位使用者,也都能有不錯的效果。

迪威智能執行長林智源
執行長林智源認為,純淨的音源串接 ChatGPT 等大型語言模型(LLM)後,大有可為
圖/ 侯俊偉攝影

AI 聲學辨識應用廣泛,提升會議管理、語言教育、音樂學習和機械品管的效率

迪威智能在聲音辨識上的人工智慧技術,有廣泛的應用。以教育為例,音訊處理技術能夠協助語言類或音樂類的老師,分離出更清晰的語音或是各種樂器的聲音,大幅減少事前準備教材的時間壓力,也能對學生的咬字和歌唱技巧進行評分。迪威智能的會議紀錄管理系統也已經支持70種以上的語言和70種地區用語,能夠即時地辨識會議的發言,整理出完整的逐字稿,省去大量會後整理的時間。

在智慧工業上,迪威智能也能夠將工廠中吵雜的噪音分離,過濾出重要的機械雜音,藉由記錄和分析異音的原因,來提醒工作人員檢查機械是否正常運作。葉子雋也指出,過去檢查產線上的機械發出異音,高度仰賴經驗豐富的老師傅,技術上難以傳承。如今迪威智能透過人工智慧模型聆聽機械音,就能夠辨識工廠裡產線上的機械將近9成不正常的聲音,就能有效增加人員運用上的效率。

另外在音響、耳機製造領域,傳統的品管過程,需要品管人員用人耳,長時間聆聽單調且尖銳的測試音,為了保護品管人員,需要每隔一段時間就暫停檢測。不但耗時,一樣有經驗傳承的問題。現在運用人工智慧後,就能有效地提升品管的效率,也保護品管人員的聽覺健康。

迪威智能技術長葉子雋
迪威智能技術長葉子雋提到,聲學在工業裡的應用比想像中重要,「例如喇叭、耳機的生產過程裡,品質控制與測試本來由人來做,除了不好訓練,如果沒有適當防護,也會耗損工作者。」
圖/ 侯俊偉攝影

聲音經濟未來仍有極大的發展空間

AI 聲學辨識能夠讓機器「聽」得更加清楚,未來也有可能會出現對話更加流暢、自然的 AI 客服,為一般消費者帶來更智慧的消費體驗。執行長林智源認為,純淨的音源可應用的領域與場域還相當廣大,有了高品質的人聲檔案,才能產出高品質的轉錄文字,在串接 ChatGPT 等大型語言模型(LLMs)後,才能使機器發揮理解多國語言的能力,使技術的影響力和滲透度大增。

責任編輯:林美欣

關鍵字: #AI #ai人工智慧
本網站內容未經允許,不得轉載。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
台日半導體新局 全解讀
© 2024 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓