微軟語音辨識技術突破重大里程碑:對話辨識能力達人類水準!

2016.10.18 by
紀品志
StockStudio / Shutterstock.com
微軟人工智慧團隊週一發表了一篇語音辨識系統的論文。報告中指出,微軟語音技術在 Switchboard 對話語音辨識的詞錯率為 5.9%(Switchboard 是美國國防高級研究計劃局資助蒐集的電話對話語料庫,常用於語言研究),已與專業人工聽寫的錯誤率相當。

微軟公司語音辨識技術近日跨越了重大里程碑,在對話字詞辨識的能力已達到與人類相當的水準。

微軟人工智慧團隊週一發表了一篇語音辨識系統的論文。報告中指出,微軟語音技術在 Switchboard 對話語音辨識的詞錯率為 5.9%(Switchboard 是美國國防高級研究計劃局資助蒐集的電話對話語料庫,常用於語言研究),比上月破紀錄的成果 6.3% 又再降低,已與專業人工聽寫的錯誤率相當。

微軟首席語音科學家黃學東表示:「我們已達到與人類相當的能力,這是歷史上的重大成就。」當日凌晨 3 時 30 分,電腦首度在對話字詞辨識達到與人類相同水準,對於研究語音辨識超過三十載的黃學東而言,這一刻是夢想成真。

語音辨識技術的突破,也將會大大增進 Xbox、語音轉文字輔助工具、以及個人數位助理 Cortana 等應用產品的功能。

微軟語音辨識研究團隊
微軟官網

神經網路及微軟開源工具 CNTK 推進語音辨識技術發展

語音及對話研究團隊負責人 Geoffrey Zweig 認為,成功的原因在有計劃地將最新神經網路技術用於系統各個層面。團隊使用了微軟計算網路工具包(Computational Network Toolkit,CNTK),是微軟自家開發的深度學習研究工具,已在 GitHub 開源釋出。黃學東也表示,CNTK 能跨多部電腦 GPU 快速處理深度學習演算,大幅加速了研究進行的速度。

儘管語音辨識技術近年突飛猛進,仍然有許多方面尚待突破。Zweig 說,研究人員正著手研究如何讓語音辨識在真實環境下(例如在派對或高速公路上等背景噪音很大的環境)也能順利運作。此外,也將研究多人說話時,分別標示各個說話者姓名的方法,以及辨識不同年齡、口音等各種類型的聲音。

人工智慧長期目標:從「辨識」到「理解」

長遠來說,研究人員不只是要教電腦辨識人口中發出的聲音訊號,而是要讓電腦能真正理解人所說的話,使人工智慧能夠依指示回答問題或進行動作。

微軟人工智慧研究副總監 Harry Shum 說,我們漸漸從「我們必須了解電腦」的世界,走向「電腦必須了解我們」的世界。不過,他也提到,我們離真正的人工智慧還很遠。如果要讓電腦能真正理解所說所見,仍然有很長一段路要走。

參考來源:MicrosoftarXiv

每日精選科技圈重要消息