微軟首席語音科學家:人工智慧若不能解決語言問題,就是瞎忽悠

2018.11.30 by
張庭瑜
微軟
讓電腦從感知走到認知,微軟首席語音科學家黃學東認為,最關鍵的一項指標就是對語言的理解。

1991年,微軟創辦人比爾.蓋茲(Bill Gates)成立微軟研究院的初衷,就是希望電腦有一天能會看、會講話。

不過隨著人工智慧(AI)發展至今,有「感知」能力的電腦已經不稀奇,讓電腦學會「認知」才是科學家現在努力的目標。而要讓電腦從感知走到認知,微軟首席語音科學家黃學東認為,最關鍵的一項指標就是是否能理解語言。

AI感知大躍進,視覺、語音、文本理解能力超越人類

近年,微軟研發的AI技術,在語音轉文字、圖像辨識、中英翻譯、文本理解等四大領域,皆超越人類平均水準。而其中,有三項都出自黃學東所帶領的語音及語言團隊。

該團隊讓黃學東滿是驕傲的最新一項技術突破,即是「AI語音合成」,透過深度神經網路語音合成技術,讓電腦能模仿人類說話的語調、韻律和發音,取代以往硬梆梆的機械音;根據微軟現場展示,讓人類和電腦隨機輪流說一段句子,一般人根本難以辨識出差異,實際測試,五題中僅答對兩題,顯示電腦語音合成的擬真度相當高。

「1982年我在清華做研究生的時候,很難想像計算機能聽懂人的話、和人的水平一樣,」黃學東說,「從1982年到2017年,這願望已經實現了。」

黃學東觀察,深度學習讓電腦的感知能力大幅進步,像是語音處理、圖像識別、機器翻譯等,近幾年錯誤率皆大幅降低,但他認為,距離可以舉一反三、有「認知」能力的AI,仍有不小距離。

AI從感知到認知,能否理解語言是關鍵

「語音和語言是人工智能進化的標桿,」黃學東指出,經過幾萬年演進,讓人類不同於其他動物的關鍵,就是語言。

他舉例,比感知,動物比人類還優異,像是狗的嗅覺、貓的視覺、獵豹的移動速度,都優於人類,但在語言部分,人類最突出。

「在人類進化中,語言起了最決定性的作用,」黃學東說,也因此他認為,「人工智能不解決語言問題,基本上是瞎忽悠。」

不過,讓電腦能「理解內容」,得先讓電腦學會推理關係、邏輯關係和知識獲取等能力。「這都是我們的障礙,才剛剛起步,」他說,「這就是為什麼我做了三十年還沒解決的問題,還在做。」他的最終目標,是希望解決語言障礙,讓電腦能理解人的語言,進而掌握、傳承知識。

只不過到了那天,可以24小時吸收知識的電腦,是否都比人類聰明了?「那肯定是的。」黃學東毫不遲疑地說。不過他也樂觀相信,人類的創造性最終能找到與機器共存的方法。

延伸閱讀

每日精選科技圈重要消息