「啊」一秒測聲帶健康,元智大學AI嗓音分析準確率破9成4

2018.09.20 by
吳元熙
shutterstock
元智大學研發的這套系統,分析超過1,000筆病患嗓音資料,能在1秒內分析聲紋、推判聲帶異常狀況,是否屬於8種病徵。

歌手在演藝圈最常遭遇的職業病,莫過於「聲帶受損」。但未來,不管是音樂家、老師,都有機會免除上醫院就診的舟車勞頓。元智大學研發的AI嗓音偵測系統,強調只需要持續對麥克風發出一秒的「啊」音,可透過演算法分析聲紋,判斷聲帶是否異常,正確率突破94%。

蒐集超過千名患者聲音

這項研究花了三年時間,由元智大學電機系教授方士豪帶領研究團隊,結合亞東醫院耳鼻喉科的嗓音資料庫,收集超過1,000名病患聲音,能推判是否有罹癌、聲帶結節、息肉、囊腫等8種病徵,目前已經獲得台灣專利,也正在申請中國大陸和美國的專利許可。

方士豪解釋,從數學模型上來看,嗓音分析和圖像辨識的差異並不大,但「數據蒐集」的難度卻高出許多。一開始的構想,是希望病患也可以唸一段文章,額外累積聲紋資訊,不過後來發現,當嘴巴發出「阿」音時,是最快速且有效蒐集數據的方式。

元智大學電機系教授方士豪表示,比起蒐集病患唸出句子的完整聲音,要分析聲帶健康狀況,透過單音的母音「阿」效果就很好。
元智大學

未來能應用在遠距醫療

方士豪謙虛表示,這套系統雖然已能準確判斷聲帶是否異常,但只知道是8種病徵之一,要進一步推論為何種疾病的準確度仍不足,「如果遇到聲樂家、專業歌手這些發音共鳴比較特殊的人,系統就可能被騙。」

他表示,其實「語音辨識」的複雜度比起嗓音分析更高,但這項研究主要目的是希望未來能成為遠距醫療利器,提供醫療匱乏地區遠端諮詢。由於聲帶位處喉部深處,非專科醫師與特殊儀器難以進行檢查,日後若配合物聯網環境,可在法規允許下早期發現和治療。

元智大學強調,與各國最新技術相比,在公開資料庫以及同樣的實驗條件下,嗓音分析系統可再從98%偵測率再進一步提升至99.1%,為目前文獻中最好的效能。研究成果已發表於知名國際期刊,是全球第一篇基於深度學習偵測病理嗓音之論文。

經過亞東醫院耳鼻喉科醫師王棨德、語言治療師林峯全協助標記檔案後,這些蒐集而來的「嗓音資料庫」,也即將開放國際團隊使用。元智大學與亞東醫院將於今年12月在西雅圖合辦病理嗓音國際競賽,希望帶動台灣的國際聲望與學術能見度。

每日精選科技圈重要消息