AI+——人工智慧的15個領先應用
專題故事

5億4,100萬年前的寒武紀大爆發,物種大量出現,幾乎所有動物的祖先都在這時期現身。有一派學者認為驅動寒武紀大爆發的原因是「眼睛」誕生,基於這個形成圖像的器官,讓動物得以解讀與應用這些圖像!現在,到了人工智慧時代,電腦視覺的突破,不僅將各種感知智慧的應用推向高峰,也預言了人類文明演革的下一個未來。

1 AI定義新時代——當人類的眼睛、耳朵,不再是唯一可思考和探索世界的工具

沈佑穎/製作
「這是『第一次』,人類的眼睛不是唯一可以用來思考和探索世界的工具。」Google雲端人工智慧暨機器學習首席科學家李飛飛說。

「這是『第一次』,人類的眼睛不是唯一可以用來思考和探索世界的工具。」Google雲端人工智慧暨機器學習首席科學家李飛飛說。寒武紀大爆發(Cambrian Explosion)是動物演化史中的劃時代事件,在5億4,100萬年前至4億8,500萬年前,其間動物種類大量出現,幾乎所有動物的祖先都在這時期現身。寒武紀大爆發的原因成為科學的謎團,一派學者認為是因為眼睛——這個形成圖像的器官所驅動的。久遠之後,另一個劃時代來臨:沒有生命的機器也可以看到甚至理解這個世界。

近60年來,電腦視覺(Computer Vision,CV)科學家一直努力讓機器具備與人類相同的視覺,教導機器像人一樣理解所見之物,如辨識物品、辨認人臉、推論物體幾何形態,進而理解其中的關聯、情緒、動作及意圖,如1963年麻省理工學院研究生羅伯茲(Lawrence Roberts)的博士論文概述了電腦如何將3D物體分解成簡單的2D圖形,是現代電腦視覺研究先驅;1970年代晚期,麻省理工學院教授馬爾(David Marr)結合神經生理學和電腦科學後,提出電腦視覺的理論架構,又讓電腦視覺發展向前邁進一步。在應用端,電腦視覺最先被應用在「工業影像檢測」上,做機械或標籤檢測,幫助產業自動化,後來到延伸到車牌、指紋以及人臉辨識,但是,「過去半世紀從最初的『規則式專家系統』到近年『統計機器學習』,電腦辨識能力雖有長足進步,卻仍比不上可分辨貓狗的三歲孩童。」台大資工系教授林守德在〈深度學習的深度〉一文中指出。

真正讓電腦視覺領域有了大躍進,能力超越孩童的是深度學習(Deep Learning)技術,其中深度學習演算法:卷積神經網絡(Convolutional Neural Network,CNN)讓電腦辨識研究更上一層樓。有了新技術的加持,這些沒有生命的機器不僅可以看到世界、分辨貓狗,甚至還超越了人類的視覺能力,2015年微軟研究團隊在圖像辨識系統測試標竿ImageNet中系統錯誤率已降低至4.94%,超越人類視覺能力,此前同樣的實驗中,人眼辨識的錯誤率約為5.1%。

點圖可放大。
沈佑穎/製作

自駕車、安防監控與醫學影像等「視覺+X」領域正熱

「電腦視覺的下一個發展重點,我認為是『視覺 + X』,不論是生物學可視化也好,還是醫療圖像等,視覺在這裡面都有巨大機會。」李飛飛說。在醫療領域,IBM Watson Health正努力成為放射科醫師的助手,給予醫師最後的診斷建議。在自駕車領域,電腦視覺技術成為自駕車之眼,2017年3月Intel以153億美元併購以色列公司Mobileye,Mobileye就是以電腦視覺技術聞名,從ADAS系統(Advanced Driver-Assistance Systems)切入自駕車系統,Intel執行長柯再奇(Brian Krzanich)就直言,「收購Mobileye真正意義在於電腦視覺技術,其技術不僅可用在汽車,也可用在直升機、高端無人機與機器人等設備。」

而在安防監控領域,人臉辨識成為重心。中國的人工智慧獨角獸曠視科技,也是從電腦視覺技術起家,應用在1:N的人臉辨識技術中,協助中國警方過濾人潮抓逃犯,目前估值超過20億美元。而影音內容辨識層面,台灣新創公司創意引晴贏得騰訊與搜狐等平台信賴,幫助平台搜尋非結構化的影音內容。

人們會忘記不能和機器對話的時代

除了電腦視覺領域,聽聲辨語的語音辨識以及閱讀並翻譯文字的自然語言處理(Natural Language Process,NLP)也是非常活躍的感知智慧領域。自然語言處理主要是讓電腦能夠妥善處理文字、語言,最終讓電腦可以理解自然語言。「再過幾年,使用語音與機器對話將成為非常自然的事情,人們甚至會忘記不能和機器對話的時代。」接受《華爾街日報》專訪的前百度首席科學家、現任Deeplearning.AI創辦人吳恩達指出。

而智慧語音助理成為兵家必爭之地,自從亞馬遜以語音服務Alexa Voice Service後為核心,推出智慧音箱Echo後,Google與微軟等大廠也紛紛起而效尤,台灣威盛也推出中文語音平台歐拉蜜。甫被微軟併購的加拿大公司Maluuba則把觸角延伸到機器閱讀,要讓電腦也能像十歲孩童般讀懂《哈利波特》。除了科技巨頭,中國科大訊飛與美國Nuance在語音辨識領域表現優異,台灣則有賽微科技

翻譯是自然語言處理的重要應用領域。2016年11月,Google藉由導入神經機器翻譯技術(Google Neural Machine Translation),讓Google翻譯僅需要一套系統就能完成多元語言翻譯,簡化了過去需要建構多個不同翻譯系統造成可觀的運算成本,Google翻譯產品經理卡蒂奧(Julie Cattiau)強調「神經機器翻譯降低相對誤差,讓機器翻譯的品質更接近譯者。」

Google自2012年以來已收購11家人工智慧新創企業,在所有公司排行的第一,蘋果以七個併購案緊追在後。其中Google先後併購深度學習技術團隊DNNresearch與Moodstock在圖像搜尋領域有很大進展,蘋果則併購VocalIQ、Perceptio、Faceshift與Emotient等新創企業,取得語音和電腦視覺領域技術,而Facebook則併購了人臉辨識技術Face.com,語音辨識及機器翻譯技術Mobile Technologies等。
沈佑穎/製作

人工智慧、大數據與物聯網之間的關係

點圖可放大;資料來源:微軟全球資深副總裁與微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文。
沈佑穎/製作

大數據、物聯網與人工智慧本質都指同一件事。物聯網強調「觸動器與感測器」,人工智慧強調「分析與決策」(分析依賴人工智慧,但決策還是操之在人),串流其中的是「數據」。以河川防洪為例,先有水位感測器蒐集數據,而人工智慧根據數據提出分析報告,人類依據報告做出防洪決策,啟動觸動器如水閘門做出改變,完成一個系統迴圈。

不用擔心泡沫化,人工智慧已創造真正的市場價值

不過,就在語音與視覺等人工智慧應用欣欣向榮之際,市場傳出泡沫論。

趨勢科技全球資深研發副總暨人工智慧加速計畫主持人周存貹就指出,「AI領域的確出現投資過熱的吹捧現象,泡沫一定會發生。」台大電機系教授暨AI新創優拓資訊共同創辦人黃鐘揚也這麼指出,「兩年內AI產業可能會泡沫化,這是全球市場性的。」

在技術層面上來看,先討論語音領域,由於人類對於語音不僅有辨識需求而已,更有語言理解需求,但機器在語言理解的進展,還不夠聰明,無法像真人般對話,因此,在商業應用發展上速度沒有圖像領域來得迅速。舉例來說,現行人工智慧在語音互動層面,還沒有辦法突破雞尾酒會效應(Cocktail Party Effect)等挑戰,不像人類在吵雜的雞尾酒會中,還是可以將注意力集中在某個音樂或與某人的談話上。而電腦視覺目前進展最大的是辨識層面,但要理解圖像的關聯,甚至是情緒、動作或意圖也還有一段路要走。而在投資層面,在中國與美國都出現團隊估值過高的現象。

點圖可放大。
沈佑穎/製作

不過,我們不用擔心這次的泡沫化來臨,因為人工智慧已經創造真正的價值,和2000年的網際網路泡沫化有很大差異,而過去人工智慧雖然也經歷兩次泡沫階段,這次的應用爆發和過去兩次也明顯不同。「前兩次人工智慧熱潮是學術研究主導的,這次是現實商業需求主導的;前兩次多是市場宣傳層面的,這次是商業模式層面的;前兩次是學術界遊說政府和投資人投錢,這次是多是投資人主動向學術和創業專案投錢;前兩次熱潮多是提出問題,這次更多是解決問題。」創新工場董事長李開復在《人工智慧來了》一書的論述就是最好的註解。

點圖可放大。
翁羽汝/製作
點圖可放大。
沈佑穎/製作;資料來源:微軟亞州研究院、經濟學人
《數位時代》1年12期,送李開復暢銷新書:人工智慧來了!優惠價1,490元!
出版日期:2017-07-12
人工智慧時代,50%的工作將被逐漸取代!?哪些工作最容易消失?什麼技能最容易被淘汰?你要如何提升自己?
買書去

2 人工智慧夯詞彙──讓電腦能聽會說,能看會認的「感知智慧」

沈佑穎/製作
微軟亞州研究院院長洪小文認為,人類發明的電腦是最好的左腦,而人類自身則擁有最好的右腦,機器無可能也沒必要取代人類。

在人工智慧領域,感知智慧、認知智慧是常見的兩種分類。感知智慧意指讓電腦模擬人類的眼(視覺)、耳(聽覺)等五官功能,讓電腦「能聽會說,能看會認」,而認知智慧則更上一層樓,電腦不僅能「感知」到環境中的各種線索,還要能理解其中含意,組織並且能夠思考,甚至利用推理能力做出決策,也就是「能理解,會思考」。

微軟亞洲研究院院長洪小文借用諾貝爾經濟學獎得主康納曼(Daniel Kahneman)的名著《快思慢想》(Thinking, Fast and Slow)的概念來解析兩者差異,他認為,若是不假思索的問題──在這張照片裡的這是貓還是狗?──那就是感知智慧處理的範疇;若是需要好好想一想的──這部戲是悲劇或喜劇?──這就跨越到認知智慧的範疇。

中國人工智慧獨角獸曠視科技首席科學家孫劍在公開演講中如此譬喻,「感知智慧可以解決『河邊出現了一隻獅子』的事情,也就是讓電腦能夠像《人類大歷史》中的智人一樣,可以通過感官獲取河邊出現獅子的訊息,而認知智慧解決的是『明天,河邊下午可能會出現一隻獅子』的事情,也就是要實現電腦的認知革命,不僅要讓電腦能感知到既有事物,還要能基於環境、條件進行抽象思考、預測。」

感知智慧領域隨著深度學習技術迅速爆發,其中又以語音與圖像辨識的進展最為快速。在某些任務上,已經等同於或超越人類的能力。微軟全球執行副總裁沈向洋指出,「在之後的五到十年,電腦感知領域的突破會更快,因為網際網路產生了大量數據,加上強大的電腦計算能力和新的演算法,讓這些大數據可以被處理,過去五、六年深度學習就是如此大躍進,然後被許多網路科技公司應用,使很多以前不能解決的問題現在可以解決。」

許多人工智慧新創公司都從感知智慧切入,如從語音辨識起家的美國Nuance與中國科大訊飛,做人臉辨識的中國人工智慧獨角獸曠視科技等。相形之下,真正切入認知智慧的新創公司數量較少,大多是科技巨頭的天下,因為有龐大的技術、資金與人才門檻,目前知名的認知智慧公司,如微軟與IBM等公司都已經積累20年以上的研究成果。

目前在認知智慧這個領域,電腦還沒有辦法和人類的能力相比。「談到認知,首先是自然語言處理,然後是知識獲取。在自然語言處理方面,深度學習雖然帶來了一些幫助,但結果還不夠好。」沈向洋強調。

洪小文認為,人類發明的電腦是最好的左腦,而人類自身則擁有最好的右腦,機器無可能也沒必要取代人類,所以,AI+HI(Human Intelligence,HI)、創新演算法加上計算力才是人工智慧發展的終極目標。因此,人類智慧與人工智慧的協同合作至為重要。比起人類會不會被人工智慧取代的議題,我們更應該把焦點放在如何透過技術的突破幫助人類工作更有效率?或是讓壓力巨大的工作變得輕鬆。
「人工智慧的確會讓一些職場工作產生變化,但並不是全部都被取代,重點是如何讓AI+HI協同最佳化。」洪小文強調。

人工智慧與人類協同合作的日子就將要到來。美國白宮所發表的研究報告《準備迎接人工智慧未來》(PREPARING FOR THE FUTURE OF ARTIFICIAL INTELLIGENCE)也指出,「隨著人工智慧系統的不斷發展,人機協同工作將成為未來社會重要的發展趨勢。」需提升人機協同合作的效率。一方面,增加系統互動能力,包括改進人工智慧算法提升其可用性、開發可視化的人機互動介面以及更為高效率的自然語言識別與處理系統。

那什麼樣的任務有機會交給人工智慧完成呢?創新工場董事長李開復提出了「五秒鐘準則」作為判斷依據,「只要一項本來由人類從事的工作,如果人可以在五秒鐘內,對工作中需要思考和決策的問題做出相應決定,那麼這項工作就有非常大的可能,會被人工智慧技術全部或部分取代。」因此在這樣的時代,需要新的學習模式並不斷提升自己,懂得善用人類的特點和機器的能力,這是未來社會裡,各領域人才必備的特質。

沈佑穎/製作
《數位時代》1年12期,送李開復暢銷新書:人工智慧來了!優惠價1,490元!
出版日期:2017-07-12
人工智慧時代,50%的工作將被逐漸取代!?哪些工作最容易消失?什麼技能最容易被淘汰?你要如何提升自己?
買書去

3 人工智慧夯詞彙──卷積神經網路、雞尾酒會效應、ImageNet、1:N

沈佑穎/製作
四個你不能不知道的AI關鍵詞彙!
沈佑穎/製作

電腦視覺領域最有效的深度學習演算法

不同的任務適用不同的類神經網絡架構,目前有卷積式類神經網絡(Convolutional Neural Network,CNN)和 遞 迴 式 類 神 經 網 絡(Recurrent Neural Network,RNN)這兩種常用架構。卷積神經網絡是最具代表性的深度學習網絡架構之一,常用於從點陣圖形直接辨識出影像模式,被大量應用在自然圖像、臉和手的檢測和物體檢測中。CNN在最近幾年大放異彩,Google的GoogleNet與微軟的ResNet等圖像辨識領域的重要突破都是利用卷積神經網絡作為架構。

遞迴式類神經網絡是一種有記憶力的類神經網絡。台大電機系教授李宏毅在〈什麼是深度學習〉一文中指出,在遞迴式類神經網絡中有一組「記憶細胞」每個細胞中存有一個數值,神經元會將記憶細胞中的數值作為輸入,而神經元的輸出則被儲存到記憶細胞中,也因此RNN擅長處理成串有序的輸入資料,如語音辨識領域,傳統的語音辨識系統往往由多個模組構成,目前已可以全部用一個複雜多層的遞迴式類神經網絡來取代,而目前語言翻譯也可以直接用一個遞迴式類神經網絡來完成。

卷積神經網路是最具代表性的深度學習網路架構之一。
沈佑穎/製作

語音的選擇性關注力

雞尾酒會效應由英國心理學家柴瑞(Colin Cherry)在1953年提出,指人類聽覺上的選擇性關注能力。人類在充滿各種聲音、吵雜的雞尾酒會中,可以將注意力集中在某個音樂或與某人的談話上,把餐具碰撞等其他聲音當作背景音,但是在語音辨識領域,電腦還是無法像人類一樣,對聲音有絕佳的選擇性關注力,因此雞尾酒會問題成為語音領域的重要挑戰,吸引大量學術研究。

亞馬遜首席科學家史特羅姆(Nikko Strom)指出,Alexa系統就使用定錨語音檢測(Anchored Speech Detection)法則,挑戰雞尾酒會問題。史特羅姆指出,首先需要用戶先說出一個定錨詞彙(anchor word)例如喚醒詞Alexa,作為學習說話者語音特徵的參考,讓Alexa系統藉此學習使用者的聲音特徵,而其他聲音就當作干擾音不做處理,接者,藉由麥克風陣列技術空間濾波與特定人的辨識的時間濾波,降低大部分雞尾酒會效應的干擾。不過,包括Alexa在內的系統都還是無法突破這個問題,周圍環境若有人聲干擾,語音辨識效果就不佳。

語音領域中吸引大量學術研究的重大挑戰。
沈佑穎/製作

圖像辨識測試標竿

ImageNet是由Google雲端人工智慧暨機器學習首席科學家李飛飛與與普林斯頓大學教授李凱共同於2007年所發起的一個專案,是個開放給電腦視覺研究者使用的圖像辨識測試數據庫,此數據庫含有近10萬個同義詞,其中八成為名詞,以貓作為一個例子,ImageNet中有超過6萬2千種,不同外觀與不同姿勢的貓咪, 並且橫跨不同的種類。

自2010年起,ImageNet每年舉辦全球性的電腦視覺比賽ILSVRC,針對圖像分類、物體檢測與物體辨識物體等領域進行評比,這比賽成為科技巨頭與頂尖研究者展現自我實力的場域。2012年,加拿大辛頓(Hinton)教授將深度學習應用到ImageNet,結果圖樣辨識錯誤率僅為15.4%,到2016年,大賽中冠軍團隊的圖像辨識錯誤率已經達到約2.9%,已經遠遠超過人類的5.1%。而在語音辨識研究方面,也有一個常用的巨型語料數據庫Switchboard,現在IBM Watson已經可以將錯誤率降低到5.5%,而有經驗的專業人員則可以低達4.0%。

圖像辨識領域最著名的測試數據庫。
沈佑穎/製作

動態人臉辨識

常用於安防監控領域的人臉辨識技術。

人 臉辨識大致可分兩種,1:1和1:N,前者商業化的應用多為金融和身分驗證方向,而後者則更多應用在安防監控領域。

曠視科技首席科學家孫劍指出,1:1主要是靜態比對人臉辨識技術,使用者並不會移動,在靜止的狀態下完成辨識。例如桃園機場的人臉辨識出關系統,就是一種1:1的人臉辨識。

而1:N則具有動態比對和非配合的特點,所謂的動態也就是辨識的不是照片,不是圖片,而是一個動態的影音資訊流,非配合則是指辨識對象不用感知到攝影機的位置,只要走進一定的辨識範圍,就能完成辨識工作。

以技術難度來看,1:N的難度會比1:1還要高,因為1:N的人臉辨識容易受逆光、曝光過度、角度以及距離等因素影響辨識準確度,因此在現階段,裝設辨識系統的廠商配合度就顯得很重要,廠商需要提供一個適合的辨識場域,來降低以上這些干擾因素。

《數位時代》1年12期,送李開復暢銷新書:人工智慧來了!優惠價1,490元!
出版日期:2017-07-12
人工智慧時代,50%的工作將被逐漸取代!?哪些工作最容易消失?什麼技能最容易被淘汰?你要如何提升自己?
買書去

4 羅賽塔石碑的秘密:Google翻譯

沈佑穎 /製作
讓機器翻譯出來的語句,如同真人翻譯一般。

讓機器翻譯出來的語句,如同真人翻譯一般。

羅賽塔石碑(Rosetta Stone)製作於公元前196年,刻有埃及法老托勒密五世(Ptolemy V)詔書,石碑同時刻有三種不同語言版本,考古學家最後破解了這段埃及文字的意義,而羅賽塔石碑也曾是Google翻譯的內部產品代號,Google翻譯擁有龐大的使用族群,每天進行10億次以上的翻譯,大約等於100萬本書的字數,每月有超過10億的活躍使用者,也就是每三個網路使用者中,就有一個是Google翻譯常用者。

Shutterstock

以往,Google翻譯以片語式機器翻譯(Phrase-Based Machine Translation)作為主要運算方式。Google透過蒐集搜尋索引來建構翻譯模型,並以統計方式將共同出現過的詞彙記錄下來,套用到翻譯服務中,以此方式,Google翻譯了數十億的網路文件,包含官方文件、新聞文章與書籍。而Google神經機器翻譯系統(Google Neural Machine Translation,GNMT)則是將整個輸入的句子視為一個單位進行翻譯,讓系統從數百萬的例子學習,提升翻譯品質。

2016年11月,Google藉由導入神經機器翻譯技術,讓Google翻譯僅需要一套系統就能完成多元語言翻譯,簡化了過去需要建構多個不同翻譯系統造成可觀的運算成本。Google翻譯產品經理卡蒂奧(Julie Cattiau)指出「複雜模型架構需要八個Google處理器(Google processing units)運算,因此每個模型的訓練需花費數周的時間,而每個模型需超過1億筆訓練案例,相當費時。」

面對多種語言翻譯的情境,Zero-Shot翻譯系統則讓兩種語言經過訓練後可自動學習,且不需額訓練就能自動翻譯另一種全新語言,舉例而言,Zero-Shot翻譯在進行英日、韓英翻譯訓練後,不僅可完成英日、日英、英韓、韓英的互譯,且可藉由導入Zero-Shot翻譯就能完成之前沒有經過任何訓練的第三種語言,如韓日、日韓的互譯。

「目前推出的16組語言組中,共有十組語言組已經採用Google神經機器翻譯系統。而透過強大的運算,在短短兩個月內,將原本需要十秒翻譯一句話的速度,縮短到0.2秒就能完成。」卡蒂奧強調。下一個階段,Google要解決的是提早截斷(early cutoff),也就是適時地截斷或捨棄來源句子裡的單詞、加強數字與日期翻譯、簡短、罕見字串的翻譯與名詞與品牌翻譯等,讓機器對語言理解的程度更進化,在不久的將來,Google翻譯服務,將有機會和人工翻譯一拼高下。

5 坐擁全球最大視覺ADAS研發中心:Mobileye

沈佑穎/製作
Mobileye要讓汽車擁有比人類更強的自動駕駛視覺系統!

由著名電腦視覺科學家艾維瑞姆(Ziv Aviram)與耶路撒冷希伯來大學教授夏舒雅(Amnon Shashua)創立的Mobileye,不僅有「自駕車之眼」稱號,也是以色列人工智慧之光。今年3月Intel以153億美元收購Mobileye後,執行長柯再奇(Brian Krzanich)說:「收購Mobileye真正意義在於電腦視覺技術,其技術不僅可用在汽車,也可用在直升機、高端無人機與機器人等設備。」

Mobileye從高級輔助駕駛系統(Advanced Driver Assistance System,ADAS)起家,正朝自動駕駛領域邁進,而Mobileye的視覺處理EYEQ系列晶片也非常有名,Mobileye把視覺處理演算法整合到SoC晶片中,「它就像我們的大腦一樣,這樣的組合幫助我們分析所能看到的情況。」Mobileye全球銷售業務總監奧伯曼(David Oberman)如此形容。

Mobieye

「我們的技術已經研發了18年,我們擁有全球最大的視覺ADAS研發中心。」奧伯曼接受媒體採訪時曾表示。Mobileye的ADAS系統在汽車前裝市場(Mobileye將軟體與晶片提供給車廠,車廠再把技術整合在汽車裡)市占率超過70%,截自2016年,全球有20家OEM車廠,共237個型號的汽車,累計1,700萬車輛裝載ADAS系統。在輔助駕駛系統獲得成功的Mobileye野心更大了,開始與BMW、福斯汽車與日產汽車等車廠攜手研發自動駕駛的視覺系統。

特斯拉也曾在Model S與Model X系列車款採用Mobileye的晶片。夏舒雅在2016年一場公開演講解析了Mobileye的研發方向,他以日本橫須賀市到橫濱的測試路線為例,這路線包含8公里的城市道路與20公里的高速公路,自駕車必須走過30個路口、11次轉彎、六次匯入高速公路,且在某一次匯入前還要在隧道前變換車道,經過一個收費站,Mobileye在此任務中扮演何種角色?

「要完成這個任務,感知、地圖測繪與駕駛策略缺一不可。」夏舒雅指出。首先在感知層面,Mobileye透過八個攝影機對車輛周身進行監控與管理,與雷達等其他感測器整合成一個解決方案;在地圖層面,Mobileye自行開發地圖,「GPS技術可以實現10公尺左右精度的導航。但無人駕駛汽車精度至少需要10公分。」夏舒雅強調,因此Mobileye蒐集路標、路面上的指示轉向或箭頭、路面材質、紅綠燈和2萬種不同的道路標誌,在傳統的地圖上形成一個新的地圖層叫做道路體驗管理(Road Experience Management,REM)。

夏舒雅強調,這個地圖接近即時連續處理,怎麼做到?「採用眾包模式,每一輛自動駕駛汽車的地圖更新匯集起來給所有汽車使用。」而且數據量並不大,「每輛車每公里累積的數據量僅有10KB左右,在汽車端中完成高級處理,再把圖像等數據中的關鍵信息提取出來。」再來就是提供安全有效率的駕駛策略。

夏舒雅指出,「今天的特斯拉還需要人類監督,還算不上自動駕駛,預計要到2021年,才會迎來全面自動駕駛,那時就再也不需要司機了,2023年後自動駕駛將變得很普遍,人類共享汽車所有權,甚至可以向汽車商訂閱汽車,按需求使用。」

讓汽車擁有比人類更強的自動駕駛視覺系統!

Mobileye

成立時間|1999年
成立地點|以色列
主要服務|電腦視覺晶片與
自駕車系統製造商

6 讓電腦像小孩一樣閱讀《哈利波特》:Maluuba

沈佑穎/ 製作
由加拿大滑鐵盧大學學生所創辦的Maluuba,訓練機器問問題,讓電腦具有閱讀能力。

機器能不能像小孩一樣閱讀《哈利波特》?人工智慧已經厲害到可以幫我們開車,但在理解人類的語言本身或背後意涵還很弱。然而,加拿大公司Maluuba推出的機器閱讀系統EpiReade,在文章閱讀上已有不錯的表現。

maluuba

Maluuba由加拿大滑鐵盧大學(University of Waterloo)學生舒里曼(Kaheer Suleman)和蘇帕拉克(Sam Pasupalak)在2011年所創辦,專精於機器閱讀系統的研發。2016年Maluuba發表論文〈A Parallel-Hierarchical Model for Machine Comprehension on Sparse Data〉聞名全球。在論文中,Maluuba訓練機器在閱讀文章後完成克漏字測驗,結果顯示,針對CNN新聞與Facebook所蒐集的童書兩大數據集的閱讀測試,分別得到74%與67.4%的準確率,這個數字在當時超過Google與微軟等科技巨頭。

Maluuba由加拿大滑鐵盧大學(University of Waterloo)學生舒里曼(Kaheer Suleman)和蘇帕拉克(Sam Pasupalak)在2011年所創辦。
maluuba

Maluuba以白雪公主文章為例,用刪除「小矮人」這個詞彙作測試,機器透過兩大閱讀步驟找到正確答案。第一個步驟是在故事中挑選出可能是正確答案的詞彙,如挑出白雪公主、小矮人、他們、繼母與她等單詞,接著形成一些「假設」,第二步驟將每個假設與故事中的每個句子加以比較,最後找出最有可能是答案的詞彙。

「和圖像辨識比較起來,機器閱讀是更複雜的認知型任務,它需要大局觀,查看它所讀取文字的語境,甚至需要加入自身已具備的相關背景知識。」微軟亞洲研究院副院長周明曾撰文指出。一般來說,人們在讀完一篇文章後,就會在腦海裡形成一定印象。這種對人類輕而易舉的能力,對電腦來說卻非如此。長期以來,自然語言處理的研究都是基於句子級別的閱讀理解。「例如給電腦一句話,理解句子中的主謂賓、定狀補,誰做了何事等。但長文本的理解問題一直是研究上的難點,因為這涉及句子之間的連貫,上下文和推理等更高維的研究內容。」

Maluuba在今年被微軟併購後,專注於訓練機器「問問題」,團隊認為機器問問題的能力增加後,其回答問題的能力也會進步,此外,微軟也努力把該技術整合到Office產品中。

Maluuba

成立時間|2011年
成立地點|加拿大
主要服務|機器閱讀

7 台灣語音辨識技術佼佼者:賽微科技

沈佑穎/製作
台灣語音辨識技術商賽微科技,其提供的聲控技術,應用在家裡的智慧電器,辨識率媲美國際大廠。

「Echo紅了之後,很多台廠想做Echo-like(效仿Echo)產品,跑來問我們能不能提供中文智慧語音技術?」賽微科技副總經理劉進榮指出。賽微是台灣著名的語音技術及解決方案提供商,核心技術能力在於「語音辨識」及「語音合成」,並擁有豐富平台移植經驗。賽微的語音辨識技術從中文與英文開始,再散布到日、義、西班牙等共32國語言。

從2004年至今,全球共計超過280款、7,500萬台行動設備和超過40萬台車機導入賽微語音技術,而賽微也是凌陽科技與廣達電腦轉投資的公司。「不只是噱頭,我們辨識率高,使用者才會長期使用,客戶也才會買單。」劉進榮強調,高辨識率是賽微產品的競爭利基點,在指令式語音辨識技術,平均辨識率達98%(非第三方數據,為公司自行評測),「這樣的成果已經和國際大廠不相上下。」劉進榮透露。

賽微科技

賽微從語音互動玩具起家,隨著市場消長又把技術應用在手機與車載資通訊系統上,成為HTC、宏碁、華創等品牌技術提供者。現在則把技術應用在與物聯網裝置上,如獲得宏碁投資的JARVISH智慧安全帽中的語音指令操作,此外,聲寶智慧管家也內建賽微技術,直接透過語音聲控家裡的智慧電器。

能有這樣的成果,是賽微奮鬥了17年的成果。賽微在2000年時成立,1998年起,台灣曾掀起中文語音辨識熱潮,當時市場主要分為兩大派別,一派與IBM技術合作,如蒙恬科技,另一派則移植當時的國科會「金聲三號」技術,如聲碩科技與宏碁。賽微團隊不少人來自於聲碩科技。但因為語音辨識度不夠高,使用者體驗不佳,很多公司難靠此獲利而沒落,而賽微是少數繼續在語音辨識領域奮鬥的公司。

不過,在中文語音辨識這領域,競爭非常激烈,除了中國科大訊飛等老廠與出門問問等新創,Google與蘋果等科技大廠,也虎視眈眈。華碩與威盛等台灣科技廠也投入資源研發,面對競爭,劉進榮認為,「的確,和這些大廠比拚雲端辨識服務不是我們的強項,但我們可以切入物聯網裝置,和半導體廠合作,把演算法整合進晶片裡,這是我們的優勢。」

賽微科技

成立時間|2000年
成立地點|台灣
主要服務|語音技術及解決方案提供商

專家觀點:微軟亞洲研究院院長

8 洪小文:人機共生才是未來世界的終極形態

沈佑穎/製作;微軟提供
機器厲害的是擁有龐大又快速的大數據計算力,對於很怪異的模式,可以很快速地硬記起來,人類和機器專長不一樣,現在外界提人工智慧,都忽略了背後的人類智慧的重要性,洪小文認為AI+HI(Human Intelligence)才是智慧發展的最終樣貌。

智慧(intelligence)至少分成四個層面:感知(perception)、認知(cognition)、創意(creativity)和大智慧(wisdom)。感知涉及的幾個重要領域,包括語音辨識、圖像搜尋與圖像辨識等,人工智慧的表現都比人類還要好,並不意外。舉個例子,今天假設某城市存在50個恐怖分子,給你50張照片,你的任務就是記好這50個人長什麼樣子?你站在關口那邊看,我可以保證,機器會做得比你好,而且機器做這個事情你會非常高興,就像安檢機器做會比我們做得好很多,我們也不會受到傷害一樣。

但圖像辨識時,人的強項在於我們碰到熟人的照片,就算照片殘缺不齊,只剩下10%,我們也能辨認出來,在語音方面也是一樣的,語音辨識領域有個概念叫「雞尾酒會效應」。我們參加雞尾酒會時,雖然現場非常吵雜,很多人都在講話,聲音相互干擾、斷斷續續,但你若認識這個在說話的人,或是你知道這個人為什麼來這裡,還是可以大概猜出來對方在表達什麼,還是可以溝通,但現在的人工智慧語音系統,沒有辦法克服這個問題。

另外一個更生動有趣的例子是翻譯,是我自己的親身經驗。當我的美國老闆到北京的時候,常常要帶他們見政府官員簽一些合約,這時候我就要充當翻譯。常常是我老闆還沒講出來但我就先翻出來了,為什麼我辦得到?非常簡單,因為會議是我安排的,我非常清楚雙方為什麼要見面,見面會聊些什麼內容。

微軟亞洲研究院院長洪小文。
微軟提供

在許多任務中,人是用認知的方法去做感知。人是真正了解事情的來龍去脈,不像機器是硬記一些模式。

另外,人厲害的是在「小」數據狀態,甚至完全沒有數據的「零」數據狀態,還是擁有「無中生有」的創造力,愛因斯坦提出的「重力波」就是一個好證明,100年前愛因斯坦提出重力波理論時哪有什麼數據呢?別說小數據了,一點數據都沒有,但人類在沒有數據的情況下還可以做到這個程度,這是人的厲害之處。另外,現在所有的機器算法如AlphaGo都是人想出來的,包括機器本身也是人造出來的,人類智慧還遠遠高於人工智慧,除非有一天人工智慧可以自己想出自己的算法,並且自己寫程式。

在這裡我跟大家解釋什麼叫算法,用一個最簡單的例子,1加到N有兩種算法,一種是直接運算,另外一種算法是N乘上N加1除以2,這是高斯發明的,當年高斯很聰明常常問數學老師問題,數學老師不勝其煩,有一天就讓高斯從1到100依次相加求和,數學老師本想高斯要花一小時才可以做完,沒想到高斯不到30秒就算出來了,他沒有使用逐個數字相加的笨辦法,而是想出了一個公式,也就是今天很多人都熟悉的1+2+3+…+n=(n+1)n/2高斯求和公式。

假設今天你跟電腦比這個求和計算,假設這個N很大,你用高斯的聰明算法,電腦用最笨的算法直接算,誰算得比較快?電腦1加到N比你算得還要快,因為人的計算力是輸給電腦的,但你會覺得電腦比你聰明嗎,不會!因為你的算法比較好。若沒有人類介入,電腦沒有辦法發明或創造這種簡潔又高效率的算法的能力。

同樣的角度,我們來看DeepMind的AlphaGo和圍棋棋士比賽這件事,AlphaGo的計算力是來自背後幾萬台機器雲端運作,但棋士李世乭與柯潔,他們下棋時所需要的算法以及同時需要進行的計算都是由自己完成的,加上比賽還有時間壓力,你覺得是AlphaGo厲害還是對弈的棋手厲害?在這種情況下,李世乭可以贏一場,代表人類棋手的算法還是在某種程度上還是優於AlphaGo,因此我讚嘆的並不是機器很強,是人真的很厲害,還能夠和機器有得拼。

機器厲害的是擁有龐大又快速的大數據計算力,對於很怪異的模式,可以很快速地硬記起來,人類和機器專長不一樣,現在外界提人工智慧,都忽略了背後的人類智慧的重要性,我認為AI+HI(Human Intelligence)才是智慧發展的最終樣貌,人和機器的共生才是未來世界的終極形態。

洪小文

出生|1963年
學歷|台大電機系學士、美國卡內基梅隆大學(CMU)電腦科學博士
經歷|蘋果電腦技術總監、微軟首席技術架構師
現職|微軟全球資深副總裁,微軟亞太研發集團主席,微軟亞洲研究院院長

在許多任務中,人是用認知的方法去做感知,是真正了解事情的來龍去脈。
《數位時代》1年12期,送李開復暢銷新書:人工智慧來了!優惠價1,490元!
出版日期:2017-07-12
人工智慧時代,50%的工作將被逐漸取代!?哪些工作最容易消失?什麼技能最容易被淘汰?你要如何提升自己?
買書去
專家觀點:創新工場董事長

9 李開復:在AI時代,台灣每個街口都是競爭力

沈佑穎/製作;吳晴中/攝影
現在科技巨頭都有開源服務,台灣可以運用這個機會,讓技術迅速與人工智慧接軌,不過,台廠心裡要有自我保護的心態,不要認為這些大公司永遠會開放這些系統。

人工智慧領域整體來說沒有「泡沫化」問題,只有一些誇大其詞的創業者,誤導了不懂人工智慧的投資人,造成一些新創公司估值虛高,達到不合理的狀態。以一般融資周期12至18個月來看,很多在去年年中左右融到資金的公司,在今年底到明年初就會把錢用完,因此明年春天可能會有一批公司陣亡,這個現象對我來說只是一個調整,只是個片面與暫時的現象,就算有一些公司倒閉了,還是會有一些成功的公司留下來。這不是泡沫化,和2000年左右的網際網路泡沫也不同。

2000年時,很多公司沒有辦法把技術轉換成商業價值,盈利的公司很少,虧錢的公司多,但是,現在很多人工智慧公司都成功地把技術轉換成清晰的商業價值。舉例來說,美圖成功幫世界上14億人口美化他們的照片,成功在香港上市,並且擁有60億美元的估值;曠視科技的人臉辨識系統可以隨時識別200到300萬張不同的臉,這個任務沒有任何人類可以做到;智融集團的用錢寶,借款人想借1千元人民幣,八秒鐘後款項就入帳了,現在一年可以做3千萬筆貸款,人類是不可能用八秒就完成貸款評估的,而以上還只是創新工場投資的公司而已,世界上還有許許多多優秀的公司。

2000年的網際網路泡沫化,遺留了巨大的價值。當時雖然很多公司都化成泡沫,但是亞馬遜和eBay都在那波浪潮下脫穎而出,當時聽起來很荒謬的服務,如送生鮮到家取代超市,現在都真實的發生了。當然,很多投資人的錢有去無回,但是,美國就是因當年埋下去的電纜等基礎建設,得以成為今日最先進的網路國家。何況,現在的人工智慧熱潮和網際網路泡沫本質根本不一樣。因此,長期來看,我相當看好人工智慧發展,所謂的「泡沫論」是不會持久的。

吳晴中/攝影

那台灣怎麼看這個問題?如果一個市場已經開始泡沫化,台灣卻連促成泡沫化的原因都還沒有產生。也就是說,別人的啤酒已經到了半杯,泡沫就要溢出來了,我們的啤酒還在釀製,這個狀況是需要警醒的。台灣得趕快把人工智慧技術的應用能量爆發出來,就像當年KKBOX、愛情公寓等公司,看到機會就想盡辦法做出相關應用。很多人說,我對台灣人工智慧未來的看法太過悲觀,我得強調台灣要追逐的是技術應用,而不是做一個Google等世界級領跑的核心巨頭,這個奢望就不要有了,這不是台灣現階段能扮演的角色。

現在科技巨頭都有開源服務,台灣可以運用這個機會,讓技術迅速與人工智慧接軌,不過,台廠心裡要有自我保護的心態,不要認為這些大公司永遠會開放這些系統。

現在中美的科技競爭很有意思,中國虛心學美國的一切,但美國不在乎中國發生什麼事,美國雖然科技技術領先全球,但中國靠著龐大的市場和迅速的執行力在反超美國,中國也是台灣很好的學習對象。實際上,中國在科技層面已經有許多地方遠遠超過台灣或是世界,台灣可以看看有哪些好的應用、技術或使用模式值得借鑒、可以在台灣落地。另一方面,台灣在硬體領域還是有競爭力和價值,台灣的半導體產業還是很進步,人工智慧背後的GPU、FPGA、傳感器與激光雷達等,機器人和無人駕駛領域需要的硬體都是台廠很好的切入點。台灣人工智慧服務開發者,要多和開源的人工智慧社群交流,多參與Kaggle、ImageNet等各類競賽,相互切磋分享。

最後,台灣的服務業非常有競爭力,台灣的鼎泰豐與永康街的芒果冰等都是有全球競爭力的公司,可以先在台灣優化後搬到其他國家,如北京最紅的麵包店原麥山丘、做藍領服務的我的打工網與快剪店星客多等都是很成功的案例。在未來,人工智慧取代一半工作的時候,較難取代的是有溫度、貼心、讓人開心的服務,所謂的「小確幸」價值是存在的,因此創造小確幸的工作機會,也很有價值。台灣從貧窮到相對均富,現在強調更多的社會責任和追求生活中的小而美,歐洲也有類似的價值,台灣手機上面的服務競爭力沒有特別強,但在生活層面,每個街口都是競爭力。

李開復

出生|1961年
學歷|美國卡內基美隆大學(Carnegie Mellon University)電腦科學博士
經歷|微軟亞洲研究院院長、微軟全球副總裁、Google全球副總裁暨中國區總裁
現職|創新工場董事長

人工智慧較難取代的是有溫度、貼心、讓人開心的服務,所謂的「小確幸」價值是存在的。
《數位時代》1年12期,送李開復暢銷新書:人工智慧來了!優惠價1,490元!
出版日期:2017-07-12
人工智慧時代,50%的工作將被逐漸取代!?哪些工作最容易消失?什麼技能最容易被淘汰?你要如何提升自己?
買書去