Google DeepMind新AI突破:解讀唇語正確率比專業人士還高!

2016.11.24 by
楊晨欣
Shutterstock
Google DeepMind開發出新的唇語解讀AI系統,在測試中以46.8%的正確率勝過專業人士的12.4%與其他現有的唇語解讀技術。

開發出AlphaGo的Google人工智慧部門DeepMind,再度發表新突破-唇語解讀技術。DeepMind開發了一個新的AI系統,能夠透過無聲的影像來解讀人類唇語,解讀的正確率,比專業人士還要高上許多。

英國牛津大學開發的唇語解讀系統LipNet
LipNet

此AI系統是由Google的DeepMind與英國牛津大學一起開發而成,從2010年開始,他們就開始訓練這個AI唇語解讀系統,透過輸入約5,000小時的電視節目、總共11萬8千個句子,來訓練這個電腦系統的唇語解讀技術。

測試結果:解讀正確率大勝專業人士

訓練完畢後,開發團隊找來專業的唇語解讀人士,與這個AI系統進行一樣的測試,解讀BBC媒體資料庫裡的200個隨機句子,來比較研究成果。結果發現,專業人士的解讀正確率為12.4%,而這個AI系統的正確率卻達到46.8%,不僅勝出人類能力,也贏過現有其他唇語解讀系統。

在唇語解讀應用上,這個系統並不會直接取代現有的麥克風,畢竟聽到人的聲音能夠更清楚地了解想表達的意思,但唇語解讀其實有機會內建在消費裝置中,加強現有能力。像是公共場合或吵雜環境中,透過解讀唇語,用戶就不必大聲對Siri等虛擬助理說話。

又或者,這個技術可以應用在影像剪輯上,來比對聲道與影像的配合度,如果沒有配合上,這個系統還可以進一步調整。

資料來源:New Scientist9to5Google

每日精選科技圈重要消息