【台灣AI大賞】DeepWave：可辨識70種語言產出逐字稿，會議紀錄不再是苦差事|數位時代 BusinessNext

會議紀錄不再是苦差事！AI可辨識70種語言產出逐字稿，還能聽出機器「怪怪的」

迪威智能團隊將清大、台大累積30年聲學辨識的研究與開發經驗商業化，結合人工智慧的最新技術，可適應不同環境收錄的不同人聲、機械聲。

全球掀起AI浪潮，在這波浪潮下，有許多台灣企業長期在專注AI領域開發，並有了令人振奮的成果，為此，《數位時代》與數位發展部合作「2023台灣AI大賞」，評選出對AI產業具有影響力的台灣團隊與專案。以下為獲獎團隊 迪威智能DeepWave 的故事：

對於內容產製者來說，無論是電影、音樂或者 YouTube 中，都非常需要將吵雜的背景噪音移除，使觀眾能享受到更好的影片品質；另外，在每天的各種例行會議中，也只能用人工的方式，透過聽打，將會議中的對話轉成文字版的會議記錄。這些應用情境在過去都難以處理，不但耗費大量的專注力，效果可能也不好。

如何將音頻（Audio）中的特定資訊如人類對話或機器異音，有效地過濾出來，正是聲學辨識領域最主要想解決的難題。

但這門技術卻不簡單，比方語音辨識等傳統的聲學辨識應用，在噪音環境、多人對話的錄音辨識度較低，往往需要後續大量的人工處理，效率很低。傳統的降噪技術也無法很好地分離背景噪音和想要保留的聲音，導致一些有意義的聲音訊號被誤刪。

運用人工智慧，能更有效地處理聲音

迪威智能注意到了這些技術上的困境，並開始著手以人工智慧技術來解決聲學辨識的問題。創辦迪威智能的張智星，在聲學辨識領域已經累積了將近30年的經驗，2019年結合台大資訊工程系多媒體資訊檢索實驗室 MIRLab 的團隊，與技術長葉子雋、執行長林智源將多年的研究成果與最新的AI技術，進一步投入商業應用，希望從聲音的角度，為各大產業找到新的觀點。

透過深度學習模型，迪威智能可以從聲音檔中辨識出各種人聲、機械聲的特徵，能比傳統以聲音頻率為基礎的處理方式，過濾出更完整的聲音。這樣的方式也具有很強的適應性，即便是不同的錄音環境、不同的多位使用者，也都能有不錯的效果。

AI 聲學辨識應用廣泛，提升會議管理、語言教育、音樂學習和機械品管的效率

迪威智能在聲音辨識上的人工智慧技術，有廣泛的應用。以教育為例，音訊處理技術能夠協助語言類或音樂類的老師，分離出更清晰的語音或是各種樂器的聲音，大幅減少事前準備教材的時間壓力，也能對學生的咬字和歌唱技巧進行評分。迪威智能的會議紀錄管理系統也已經支持70種以上的語言和70種地區用語，能夠即時地辨識會議的發言，整理出完整的逐字稿，省去大量會後整理的時間。

在智慧工業上，迪威智能也能夠將工廠中吵雜的噪音分離，過濾出重要的機械雜音，藉由記錄和分析異音的原因，來提醒工作人員檢查機械是否正常運作。葉子雋也指出，過去檢查產線上的機械發出異音，高度仰賴經驗豐富的老師傅，技術上難以傳承。如今迪威智能透過人工智慧模型聆聽機械音，就能夠辨識工廠裡產線上的機械將近9成不正常的聲音，就能有效增加人員運用上的效率。

另外在音響、耳機製造領域，傳統的品管過程，需要品管人員用人耳，長時間聆聽單調且尖銳的測試音，為了保護品管人員，需要每隔一段時間就暫停檢測。不但耗時，一樣有經驗傳承的問題。現在運用人工智慧後，就能有效地提升品管的效率，也保護品管人員的聽覺健康。

迪威智能技術長葉子雋提到，聲學在工業裡的應用比想像中重要，「例如喇叭、耳機的生產過程裡，品質控制與測試本來由人來做，除了不好訓練，如果沒有適當防護，也會耗損工作者。」

圖／侯俊偉攝影

聲音經濟未來仍有極大的發展空間

AI 聲學辨識能夠讓機器「聽」得更加清楚，未來也有可能會出現對話更加流暢、自然的 AI 客服，為一般消費者帶來更智慧的消費體驗。執行長林智源認為，純淨的音源可應用的領域與場域還相當廣大，有了高品質的人聲檔案，才能產出高品質的轉錄文字，在串接 ChatGPT 等大型語言模型（LLMs）後，才能使機器發揮理解多國語言的能力，使技術的影響力和滲透度大增。

責任編輯：林美欣