李飛飛:我們如何教電腦看懂圖像

Stanford University School of Engineering
沒有人教導孩童如何去「看」世界,孩童是直接從真實世界的經驗中學習,到三歲左右時,孩子們已經看過了真實世界中數以百萬計的照片,這樣的訓練範例是很大量的,因此要教導機器辨識圖像或許該是如此:兼以質與量,提供訓練的資料給電腦,而非一味追求更好的程式演算。

我們的終極目標就是教導機器能夠像人一樣理解所見之物,像是識別物品、辨認人臉、推論物體的幾何形態,進而理解其中的關聯、情緒、動作及意圖。

要電腦達成這個目標的第一步,就是教導電腦如何辨別物品,這是視覺的基石。簡單來說,我們教導的方法是給電腦看一些特定物體的影像,以貓咪為例,貓咪由一些幾何圖形和顏色所組成的,我們用數學語言告知電腦演算方法,貓就是有圓圓的臉、胖胖的身體、兩個尖尖的耳朵和一條長尾巴。那困難點在哪裡?但如果貓咪造型改變,全身都捲起來了,這下子我們就要在原來的模型加上新的形狀和不同的視野角度,又如果貓咪是躲著的呢?我們發現,即使簡單如貓這樣的家庭寵物,也會有相對於原型以外、數也數不清的其他形態表徵, 而這只是其中一樣。

不過,就在八年前,一項簡單而深刻的觀察,改變了我的想法,我發現沒有人教導孩童如何去「看」世界,特別是在孩童早期發育階段,孩童是直接從真實世界的經驗中學習,到三歲左右的年紀時,孩子們已經看過了真實世界中數以百萬計的照片,這樣的訓練範例是很大量的,因此直覺告訴我應以孩童學習經驗法則,兼以質與量,提供訓練的資料給電腦,而非一味追求更好的程式演算。

有了上述的洞見,我們必須要蒐集大量資料群,於是我與普林斯頓大學的李凱教授共同於2007年開始ImageNet專案。2009年起,ImageNet已經是個擁有涵蓋了2萬2千種不同類別,多達150億幅圖像的資料庫,這樣的規模,不論是「質」或「量」都是史無前例的。有了這些資料,我們可以教育我們的電腦,結果我們發現:ImageNet所提供的豐富資訊恰巧與機器學習演算的其中一門特定領域不謀而合,我們稱它為「卷積神經網絡」(Convolutional Neural Network,CNN)──在七零及八零年代,辛頓(Geoff Hinton)和勒丘恩(Yann LeCun)等學者為該領域的先驅。

卷積神經網絡就在眾人的意料外開花結果了。在一般的神經網絡中,我們用作訓練的物品辨識模型就有2千400萬個節點、1億4千萬個參數,以及150億個連結。正如同人類的大腦是由無數個緊密連結的神經元所組成,而神經網絡的基本運作單位是一個類神經元的節點。ImageNet的運作方式是從別的節點得到資料,然後再傳給其他的節點,這些數不清的節點擁有層層的組織架構,就好像我們的大腦一樣。現在,電腦不僅能告訴我們圖中有隻貓,還能告訴我們貓在哪裡。

視覺始於眼睛,但真正使它有用的,卻是大腦。
Google雲端人工智慧暨機器學習首席科學家李飛飛

有時候,如果電腦不確定自己所見到的東西時, 我們已經將它教到可以聰明地給一個安全的答案,而非莽撞地回答,就像一般人能做到的那樣。更有些時候,電腦的運算竟能夠精準地辨別物體品項,例如製造商、型號、車子的年份。舉例來說,Google將這個演算程式廣泛地運用在數百個美國城市的街景裡,也因此我們從中得到了一些有趣的概念。首先,它證實了一項廣為人知的說法,也就是汽車價格和家庭收入是息息相關的。然而令人驚訝的是,汽車價格也和城市中的犯罪率以及區域選舉模式,有一定程度的關係。

那電腦已經趕上、甚至超越人類了嗎?還早得很呢!到目前為止,我們只是教導電腦辨識物品,就像小孩子牙牙學語一樣,雖然這是個傲人的進展,但它不過是第一步而已,很快地,下一波具指標性的後浪就會打上來,小孩子開始進展到用句子來溝通。因此,他已經不會用「這是貓」來描述圖片,而是會聽到這個小孩說:「這是躺在床上的貓。」

因此,要教導電腦看到圖並說出句子, 必須進一步地仰賴龐大資料群以及機器的學習演算。現在,電腦不僅要學習圖片辨識,還要學習人類自然的說話方式,就如同大腦要結合視覺和語言一樣,我們做出了一個模型,它可以連結不同的可視物體,就像視覺片段一樣,並附上句子用的字詞和片語。約四個月前,我們終於把所有的元素全部兜起來了,做出了第一個電腦版的模型,它可以在初次看到照片時說出像人類般自然的句子。

這是第一次人類的眼睛不是唯一可以用來思考和探索世界的工具,我們不僅可以利用機器的智能,更可以運用更多你想像不到的方式攜手合作。這也是我想追求的目標,給予機器智慧之眼, 為整個世界創造更美好的未來。

李飛飛

出生|1976年
學歷|加州理工大學電機工程博士
經歷|史丹佛人工智慧實驗室主任、史丹佛視覺實驗室主任、豐田-史丹佛人工智慧研究中心負責人
現職|Google雲端人工智慧暨機器學習首席科學家

整理.撰文/翁書婷;文章整理自TED

追蹤我們