Google如何透過YouTube辨識你的「行為」?
Google如何透過YouTube辨識你的「行為」?

讓機器學習影音中人類的動作,一直是電腦視覺(Computer Vision)研究領域中的重要議題,因為人類的行為是自然而不受規範的。

因此,讓機器認知人類的動作依舊存在著難度。為了提升機器學習認知影片中人類動作的能力,Google發表了原子視覺化動作數據學習模式(Atomic Visual Actions,AVA)。

人類互動行為分三大類型

AVA為一段長影片中的每個人物,提供數個行為動作標籤。YouTube大中華與紐澳技術管理負責人葉佳威說明,AVA將人類互動行為分為三大類型,但他沒有透露這三種類型的準確度有多少。

  1. 姿勢或移動時的動作表現 (pose/movement actions),如走路與跳舞等。

  2. 人與物品互動行為 (person-object interactions),如講電話、抽煙與看電視等

  3. 人與人互動行為 (person-person interactions)如接吻與擁抱。

Google AVA
AVA能夠考量兩個不同標籤同時發生的模式,如在親吻時擁抱。
圖/ Google

進一步剖析AVA

一:3秒時間內的視覺標誌。
AVA技術大量採用YouTube中的電影與電視內容為數據樣本,而且這些影音取材來自各種類型和不同國家,讓數據樣本可以真實反應人類行為(Realistic Video Material)。

有了數據樣本,團隊會針對做出動作的「人」進行標籤,而非一整個影音片段。特別的是,這個動作標籤精細到時間長度僅有3秒內的影音。

二:兩個不同標籤同時發生
目前AVA已經分析了超過57萬組影音片段,生成21萬個動作標籤,總計標註了9萬6000組人類的動作。

AVA能夠考量兩個不同標籤同時發生的模式,如一邊唱歌一邊玩樂器與在親吻時擁抱等。

目前市面上已經有UCF101、ActivityNet與DeepMind Kinetics等數據集,這些數據集都已經將影音片段標籤化,但是並沒有關注在「多人」「不同動作」等較為複雜的人類行為解讀。不過目前AVA仍還在研究階段,Google希望透過 AVA 的發布,幫助人類動作識別系統的開發。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓