讓機器自己挑「對」資料樣本！Google雲端AI掌門人李飛飛發表機器學習新模型|數位時代 BusinessNext

讓機器自己挑「對」資料樣本！Google雲端AI掌門人李飛飛發表機器學習新模型

李飛飛，Google雲端人工智慧暨機器學習首席科學家，史丹佛AI實驗室唯一的女性，一直不斷追求人工智慧的創新研究，此次與史丹佛、卡內基梅隆大學團隊一起，讓AI大眾化更近一大步！

這項研究是李飛飛團隊在今年CVPR上的一項最新工作，該方法提出了一種模型可自動標註網路中巨量的嘈雜影片。

以下內容是雷鋒網AI科技評論根據論文內容進行的部分編譯。

論文摘要

人類行為種類多樣，要如何才能讓機器理解具有多樣化和細粒度的人類行為，則是電腦視覺領域中的一個關鍵性的開放問題。透過手工的方式標註訓練影片，對於少數的動作類型是可行的，但是這種策略無法完整覆蓋豐富多樣的所有動作。

圖一，該論文中的模型使用一組標註數據來學習如何為新的、沒有見過的動作類別進行標註的策略。這樣可以學習特定領域的專有知識，以及如何在避免語義漂移（Semantic drift）的同時選擇不同的範例。比如，該模型可以從訓練數據中進行學習，如圖所示，其中人的動作線索對正確動作分類的幫助更大（例如「騎馬」），而不是動物的外形。在測試期間，這種知識可以被應用於標記一些全新類別的嘈雜數據，例如「飼養動物」，而傳統的半監督方法則是基於視覺相似（Visual similarity）性進行標註。

當前，解決這一個問題的一個可能有效的策略是，使用半監督（Semi-supervised）或者「網路監督（Webly-supervised）」的方法，利用來自網路檢索所產生的嘈雜數據來學習新的動作。然而，這些方法通常無法學習到特定領域的知識（Domain-specific knowledge），或者依賴於需要不斷迭代的手工調整的數據標籤策略（Hand-tuned data labeling policies）。據雷鋒網了解在這項研究中，李飛飛她們團隊提出了一種基於增強學習（Reinforcement learning-based）的方法，該方法能夠從嘈雜的網路檢索結果中篩選出適合於訓練分類器的樣本。

圖二，模型框架圖。該模型使用從網路搜索所得的候選示例集，為特定的視覺概念學習分類器。在每一個時間節距（time step）t，模型透過Q-learning的智慧體來選擇樣本（比如 D_K），並將該樣本加入到已經存在的正樣本數據集 D^t-1 中構成訓練樣本。然後該訓練樣本被用於訓練視覺分類器。分類器將同時更新智慧體的狀態 s^t+1 並提供一個獎勵 r^t。然後在測試期間，經過訓練的智慧體能夠用於從任意的、全新的視覺概念的網路檢索結果中，自動選取出正樣本。

該方法的核心思想是，使用Q-learning來學習一個小型標籤訓練數據上的數據標籤策略，然後再利用該模型來自動標註嘈雜的網路數據，以獲得新的視覺概念。

據雷鋒網了解，為了驗證該方法，研究員們在當前最富有挑戰性的動作識別數據集Sports-1M上進行了實驗，實驗內容包括動作識別基準、細粒度和新動作類別預測。透過實驗證明了該方法能夠為嘈雜數據學習到足夠好的標籤，並且使用這些標籤能夠學習到準確的視覺概念分類器。

原文刊載於雷鋒網，標題為〈李飛飛協同斯坦福、CMU 帶來全新成果：從網絡嘈雜的視頻中進行學習），《數位時代》獲授權轉載。
Via Learning to Learn from Noisy Web Videos

李飛飛小檔案
出生：1976年
現職：Google雲端人工智慧暨機器學習首席科學家
經歷：史丹佛人工智慧實驗室主任、史丹佛視覺實驗室主任、豐田-史丹佛人工智慧研究中心負責人
學歷：加州理工大學電機工程博士、普林斯頓大學物理系
成績：ImageNet、Caltech 101、2014 IBM Faculty Fellow Award、2011 Alfred Sloan Faculty Award、2012 Yahoo Labs FREP award