與專業速記員相當、錯誤率降至5.9%,微軟發表用於語音識別技術的「認知工具套件」

2016.10.26 by
愛范兒 ifanr
愛范兒 ifanr 查看更多文章

愛范兒連接全球創新者及消費者,跨界技術、文化、消費及創新,致力消費科技領域的產業評論、產品報導及社群連接,創造高品質的消費樂趣。

Shutterstock
微軟的語音識別技術更進一步降低錯誤率至5.9%,首次達成與專業速記員相當的表現。

一個月前,微軟的對話語音識別技術在產業標準Switchboard語音識別基準測試中實現了詞錯率(word error rate,簡稱WER)低至6.3%的突破,創造當時該領域內錯誤率最低紀錄。

近期,微軟進一步將詞錯率降低至5.9%,首次達成與專業速記員持平而優於絕大多數人的表現。

微軟的語音識別技術可以一次又一次刷新紀錄,在很大程度上要歸功於CNTK(Computational Network Toolkit)這個開源工具。

該系統最初是為了研究語音應用而建立,後來拓展發展成為微軟本地化深度學習系統。 CNTK工具套件已於一年前在GitHub上開源,目前包括微軟人工智慧個人助理Cortana和HoloLens的語音識別都是基於CNTK實現的。CNTK跟其他開源軟體最大的區別是它能做大規模、分佈式的機器學習,同時保證強大的性能。

今天,該工具套件進行了更新,新增一個被稱為「認知工具套件(Cognitive Toolkit)」的測試版。

針對語音識別的研究可以追溯到上個世紀七十年代DARPA(Defense Advanced Research Projects Agency,美國國防部先進研究專案局,主要致力於美國國防高新技術的研究、開發和應用)資助的一個相關專案。此後幾十年,越來越多研究機構和大型公司陸續加入其中。

「這次突破是過去二十多年語音識別技術不斷積累的結果,」微軟主管語言及對話研究組的研究員Geoffrey Zweig稱。

現在微軟達到的5.9%的詞錯率是什麼概念?

在行業標準Switchboard語音識別任務測試中,人類對照組(由專業速記員組成)將對話語音轉錄成文字,目前有記錄的最低詞錯率就是5.9%,這就意味著微軟的語音識別系統的語音識別能力已經高於世界上絕大多數人而與人類專業高手持平,創造了一項新的世界紀錄。

此次語音識別的里程碑式突破將對消費者和商業產品產生深遠影響,因為語音識別技術能夠顯著增強人們的日常計算體驗。這些產品包括像XBOX的娛樂設備、像微軟Cortana的生產力工具以及能實現實時語音到文本轉錄的個人人工智慧助手。

微軟團隊的詞錯率雖然實現了與人類專業速記員持平的5.9%,但這並不代表電腦就能完美識別出每一個單詞。

本文授權轉載自:愛范兒

每日精選科技圈重要消息