由於計算能力的突飛猛進帶動了機器學習的發展,近年來人工智慧取得了不少突破。其中最顯著的體現在語音識別、圖像識別等方面,甚至連一些規則明確的遊戲AI也已經戰勝了人類的最高水平,比如在圍棋項目上擊敗李世石的AlphaGo就是例子。但是人類仍然有一些不可撼動的優勢,比如描述能力就是其中之一。看到一張圖片,AI的確能識別出裡面有兩個人和一個足球,但是卻無法說出「撲錯方向的切赫絕望地目送梅西將皮球送入網窩」這樣的話來,這讓我們人類仍然擁有一絲自豪感。不過情況也許就要不同了,IBM正在跟MIT合作,試圖在機器身上培養出這種能力。
IBM跟MIT聯合成立的實驗室叫做IBM-MIT腦啟發多媒體機器理解實驗室(IBM-MIT Laboratory for Brain-inspired Multimedia Machine Comprehension),該實驗室的目的,是要透過數年的共同協作,尋求解決計算機視覺和聽覺問題的解決方案。
該實驗室由MIT大腦與認知科學系主任Jim DiCarlo領導,研究人員則來自該係以及MIT的CSAIL實驗室,IBM的Watson團隊也會有成員加入,他們希望這種組合能夠碰撞出火花。其目標是研究出一套認知計算系統,這套系統應該能夠像人一樣,具備理解多來源的聲音和視覺信息的能力,然後透過集成再將對世界的這種理解展示出來(而不是簡單的二進制),從而提供醫療保健、教育以及娛樂等方面的用途。換句話說,就是像人一樣表述看到和聽到的東西。
按照這個目標,顯然目前的圖像識別功能還比較初級。 AI可以用與人類相當的精確度識別出圖像裡面的對象,但光有這一點信息並沒有太大的應用意義,圖片和聲音裡面蘊含著豐富的上下文信息都被忽略了。而要想挖掘這些信息,就需要多學科交叉的配合,比如計算機視覺、語音識別、自然語言處理、模式識別、預測方法、決策技術、領域知識等。
為此,這個聯合實驗室將採用了無監督的機器學習對音視頻流數據進行分析,並且按照大腦神經網絡的組織對AI神經網絡進行新的建模,透過多學科交叉來推進計算機的理解。而這種理解有很多的潛在應用,比如幫助老年人、殘疾人改善生活,幫助組織維護和保養複雜機器等各種跨行業應用。
Google對這個方向也很感興趣,而且已經有了一些初步的成果。如上圖所示,它的AI現在不僅可以識別出圖像的一些要素,而且還可以用類似自然語言的方式對場景進行表述了。比如說,「穿紅衣服的人」,「背對鏡頭的長頸鹿」等,這種能力已經高於幼兒牙牙學語的水平。
與Google相比,IBM在AI方面的努力也可謂過之而無不及。除了與MIT進行合作以外,IBM還在決策支援、網路安全、語言深度學習等方面開展了協作,這些的共同基礎是IBM的Watson AI,IBM希望,透過多領域的協作,最終能夠搭建出一個所謂的認知水平網路(Cognitive Horizons Network),到時候(也許是10年左右)也許我們就會看到一個超腦的雛形了。
本文授權轉載自:36 氪