微軟語音辨識技術突破重大里程碑：對話辨識能力達人類水準！|數位時代 BusinessNext

微軟語音辨識技術突破重大里程碑：對話辨識能力達人類水準！

微軟人工智慧團隊週一發表了一篇語音辨識系統的論文。報告中指出，微軟語音技術在 Switchboard 對話語音辨識的詞錯率為 5.9%（Switchboard 是美國國防高級研究計劃局資助蒐集的電話對話語料庫，常用於語言研究），已與專業人工聽寫的錯誤率相當。

微軟公司語音辨識技術近日跨越了重大里程碑，在對話字詞辨識的能力已達到與人類相當的水準。

微軟人工智慧團隊週一發表了一篇語音辨識系統的論文。報告中指出，微軟語音技術在 Switchboard 對話語音辨識的詞錯率為 5.9%（Switchboard 是美國國防高級研究計劃局資助蒐集的電話對話語料庫，常用於語言研究），比上月破紀錄的成果 6.3% 又再降低，已與專業人工聽寫的錯誤率相當。

微軟首席語音科學家黃學東表示：「我們已達到與人類相當的能力，這是歷史上的重大成就。」當日凌晨 3 時 30 分，電腦首度在對話字詞辨識達到與人類相同水準，對於研究語音辨識超過三十載的黃學東而言，這一刻是夢想成真。

語音辨識技術的突破，也將會大大增進 Xbox、語音轉文字輔助工具、以及個人數位助理 Cortana 等應用產品的功能。

神經網路及微軟開源工具 CNTK 推進語音辨識技術發展

語音及對話研究團隊負責人 Geoffrey Zweig 認為，成功的原因在有計劃地將最新神經網路技術用於系統各個層面。團隊使用了微軟計算網路工具包（Computational Network Toolkit，CNTK），是微軟自家開發的深度學習研究工具，已在 GitHub 開源釋出。黃學東也表示，CNTK 能跨多部電腦 GPU 快速處理深度學習演算，大幅加速了研究進行的速度。

儘管語音辨識技術近年突飛猛進，仍然有許多方面尚待突破。Zweig 說，研究人員正著手研究如何讓語音辨識在真實環境下（例如在派對或高速公路上等背景噪音很大的環境）也能順利運作。此外，也將研究多人說話時，分別標示各個說話者姓名的方法，以及辨識不同年齡、口音等各種類型的聲音。

人工智慧長期目標：從「辨識」到「理解」

長遠來說，研究人員不只是要教電腦辨識人口中發出的聲音訊號，而是要讓電腦能真正理解人所說的話，使人工智慧能夠依指示回答問題或進行動作。

微軟人工智慧研究副總監 Harry Shum 說，我們漸漸從「我們必須了解電腦」的世界，走向「電腦必須了解我們」的世界。不過，他也提到，我們離真正的人工智慧還很遠。如果要讓電腦能真正理解所說所見，仍然有很長一段路要走。

參考來源：Microsoft、arXiv