讓機器學習影音中人類的動作,一直是電腦視覺(Computer Vision)研究領域中的重要議題,因為人類的行為是自然而不受規範的。
因此,讓機器認知人類的動作依舊存在著難度。為了提升機器學習認知影片中人類動作的能力,Google發表了原子視覺化動作數據學習模式(Atomic Visual Actions,AVA)。
人類互動行為分三大類型
AVA為一段長影片中的每個人物,提供數個行為動作標籤。YouTube大中華與紐澳技術管理負責人葉佳威說明,AVA將人類互動行為分為三大類型,但他沒有透露這三種類型的準確度有多少。
姿勢或移動時的動作表現 (pose/movement actions),如走路與跳舞等。
人與物品互動行為 (person-object interactions),如講電話、抽煙與看電視等
人與人互動行為 (person-person interactions)如接吻與擁抱。
進一步剖析AVA
一:3秒時間內的視覺標誌。
AVA技術大量採用YouTube中的電影與電視內容為數據樣本,而且這些影音取材來自各種類型和不同國家,讓數據樣本可以真實反應人類行為(Realistic Video Material)。
有了數據樣本,團隊會針對做出動作的「人」進行標籤,而非一整個影音片段。特別的是,這個動作標籤精細到時間長度僅有3秒內的影音。
二:兩個不同標籤同時發生
目前AVA已經分析了超過57萬組影音片段,生成21萬個動作標籤,總計標註了9萬6000組人類的動作。
AVA能夠考量兩個不同標籤同時發生的模式,如一邊唱歌一邊玩樂器與在親吻時擁抱等。
目前市面上已經有UCF101、ActivityNet與DeepMind Kinetics等數據集,這些數據集都已經將影音片段標籤化,但是並沒有關注在「多人」「不同動作」等較為複雜的人類行為解讀。不過目前AVA仍還在研究階段,Google希望透過 AVA 的發布,幫助人類動作識別系統的開發。