1. 程式人生 > >人體行為識別特徵點提取 綜述很全面

人體行為識別特徵點提取 綜述很全面

行為識別特徵提取綜述

摘要

  人體行為識別目前處在動作識別階段,而動作識別可以看成是特徵提取和分類器設計相結合的過程。特徵提取過程受到遮擋,動態背景,移動攝像頭,視角和光照變化等因素的影響而具有很大的挑戰性。本文將較全面的總結了目前行為識別中特徵提取的方法,並將其特徵劃分為全域性特徵和區域性特徵,且分開介紹了其優缺點。

關鍵字: 行為識別 特徵提取 全域性特徵 區域性特徵

1. 前言

  如今人體行為識別是計算機視覺研究的一個熱點,人體行為識別的目標是從一個未知的視訊或者是影象序列中自動分析其中正在進行的行為。簡單的行為識別即動作分類,給定一段視訊,只需將其正確分類到已知的幾個動作類別,複雜點的識別是視訊中不僅僅只包含一個動作類別,而是有多個,系統需自動的識別出動作的類別以及動作的起始時刻。行為識別的最終目標是分析視訊中哪些人在什麼時刻什麼地方,在幹什麼事情,即所謂的“W4系統”。

  下面將4個方面對行為識別做初步介紹。

1.1    行為識別應用背景

  人體行為識別應用背景很廣泛,主要集中在智慧視訊監控,病人監護系統,人機互動,虛擬現實,智慧家居,智慧安防,運動員輔助訓練,另外基於內容的視訊檢索和智慧影象壓縮等有著廣闊的應用前景和潛在的經濟價值和社會價值,其中也用到了不少行為識別的方法。

1.2    行為識別研究歷史

  行為識別分析的相關研究可以追溯到1975年Johansson[1]的一個實驗,作者提出了12點人體模型,這種描述行為的點模型方法對後來基於人體結構的行為描述演算法起到了重要的指導作用。從那以後,行為識別的研歷史究進展大致可以分為以下3個階段,第1個是20世紀70年代行為分析的初步研究階段,第2個是20世紀90年代行為分析的逐步發展階段,第3個是最近幾年來行為分析的快速發展階段。從文獻[2]~[7]這6篇較有名的行為識別綜述論文可以看出, 研究行為識別的人數在不斷增加,論文數量也是猛增,並且產生了許多種重要的演算法和思想。

1.3    行為識別方法分類體系

  關於視覺上人體運動分析和識別的方法論體系有很多種。Forsyth[8]等人側重與將動作從視訊序列中人的姿態和運動資訊恢復過來,這屬於一個迴歸問題,而人體行為識別是一個分類問題,這2個問題有很多類似點,比如說其特徵的提取和描述很多是通用的。Turaga[5]等人將人體行為識別分為3部分,即移動識別(movement),動作識別(action)和行為識別(activity),這3種分類分別於低層視覺,中層視覺,高層視覺相對應。Gavrila[9]採用2D和3D的方法來分別研究人體的行為。

對於行為識別方法論的劃分中,最近出現了一種新的劃分[7], Aggarwal將人體行為研究分為2大類,其一是基於單個層次來實現,其二是基於等級體系來實現。單層實現由分為時空特徵和序列特徵2種,等級體系實現分為統計方法,句法分析法和基於描述的方法3種。圖1 Aggarwal對行為識別方法論體系的層次結構圖。

  

圖1 行為識別方法層次結構

     該分類體系比較完善,也能很好的體現目前的研究進展。按照Turaga的3個層次劃分理論,目前關於行為識別基本上還停留在第二個階段,即action識別。而action識別比現實生活中的行為較簡單,所以我們識別這些行為只需對這些行為進行正確的分類即可。這樣一個行為識別系統就分成了行為特徵提取和分類器的設計兩個方面,通過對訓練資料提取某種特徵,採用有監督或無監督來訓練一個分類模型,對新來的資料同樣提取特徵並送入該模型,得出分類結果。基於這個思想,本文主要是從行為識別的特徵提取方面做了一個較為全面的介紹。

1.4    行為識別研究難點

  行為識別發展至今,取得了很大的進展,在低層,中層和高層都取得了一定的突破,但是行為識別演算法並不成熟,目前不存在一個演算法適合所有的行為分類,3個視覺層次中都還有很多嚴峻的問題有待解決。其研究的難點主要體現在以下幾個方面:

1.4.1  動作類內類間的變化太大

  對於大多數的動作,即使是同一動作都有不同的表現形式。比如說走路,可以在不同的背景環境中完成,走路的速度也可以從慢到快,走路的步長亦有長有短。其它的動作也有類似的結果,特別是一些非週期的運動,比如過馬路時候的走路,這與平時週期性的走路步伐明顯不同。由此可見,動作的種類本身就很多,再加上每一種類又有很多個變種,所以給行為識別的研究帶來了不少麻煩。

1.4.2  環境背景等影響

  環境問背景等因素的影響可謂是計算機視覺各個領域的最大難點。主要有視角的多樣性,同樣的動作從不同的視角來觀察會得到不同的二維影象;人與人之間,人與背景之間的相互遮擋也使計算機對動作的分類前期特徵提取帶來了困難,目前解決多視覺和遮擋問題,有學者提出了多攝像機融合通過3維重建來處理;另外其影響因素還包括動態變化和雜亂的背景,環境光照的變化,影象視訊的低解析度等。

1.4.3  時間變化的影響

  總所周知,人體的行為離不開時間這個因素。而我們拍攝的視訊其存放格式有可能不同,其播放速度有慢有快,這就導致了我們提出的系統需對視訊的播放速率不敏感。

1.4.4  資料的獲取和標註

  既然把行為識別問題當成一個分類問題,就需要大量的資料來訓練分類模型。而這些資料是視訊資料,每一個動作在視訊中出現的位置和時間都不確定,同時要考慮同一種動作的不同表現形式以及不同動作之間的區分度,即資料的多樣性和全面性。這一收集過程的工作量不小,網上已經有一些公開的資料庫供大家用來實驗,這將在本文的第3部分進行介紹。

  另外,手動對視訊資料標註非常困難。當然,有學者也提出了一些自動標註的方法,比如說利用網頁圖片搜尋引擎[10],利用視訊的字幕[11],以及利用電影描述的文字進行匹配[12][13][14]。

1.4.5  高層視覺的理解

  上面一提到,目前對行為識別的研究尚處在動作識別這一層(action  recognition)。其處理的行為可以分為2類,一類是有限制類別的簡單規則行為,比如說走、跑、揮手、彎腰、跳等。另一類是在具體的場景中特定的行為[15]~[19],如檢測恐怖分子異常行為,丟包後突然離開等。在這種場景下對行為的描述有嚴格的限制,此時其描述一般採用了運動或者軌跡。這2種行為識別的研究都還不算完善,遇到了不少問題,且離高層的行為識別要求還相差很遠。因此高層視覺的理解表示和識別是一個巨大的難題。

2. 行為識別特徵提取

  這一節中,將主要討論怎樣從圖片序列中提取特徵。本文將行為識別的特徵分為2大類:全域性特徵和區域性特徵。

  全域性特徵是把一物件當做成一個整體,這是一種從上到下的研究思維。這種情況下,視訊中的人必須先被定位出來,這個可以採用背景減圖或者目標跟蹤演算法。然後對定位出來的目標進行某種編碼,這樣就形成了其全域性特徵。這種全域性特徵是有效的,因為它包含了人體非常多的資訊。然而它又太依賴而底層視覺的處理,比如說精確的背景減圖,人體定位和跟蹤。而這些處理過程本身也是計算機視覺中的難點之處。另外這些全域性特徵對噪聲,視角變化,遮擋等非常敏感。

  區域性特徵提取是收集人體的相對獨立的影象塊,是一種從下到上的研究思維。一般的做法是先提取視訊中的一些時空興趣點,然後在這些點的周圍提取相應的影象塊,最後將這些影象塊組合成一起來描述一個特定的動作。區域性特徵的優點是其不依賴而底層的人體分割定位和跟蹤,且對噪聲和遮擋問題不是很敏感。但是它需要提取足夠數量的穩定的且與動作類別相關的興趣點,因此需要不少預處理過程。

2.1    全域性特徵提取

  全域性特徵是對檢測出來的整個感興趣的人體進行描述,一般是通過背景減圖或者跟蹤的方法來得到,通常採用的是人體的邊緣,剪影輪廓,光流等資訊。而這些特徵對噪聲,部分遮擋,視角的變化比較敏感。下面分別從其二維特徵和三維特徵做介紹。

2.1.1 二維全域性特徵提取

Davis[20]等人最早採用輪廓來描述人體的運動資訊,其用MEI和MHI 2個模板來儲存對應的一個動作資訊,然後用馬氏距離分類器來進行識別。MEI為運動能量圖,用來指示運動在哪些部位發生過,MHI為運動歷史圖,除了體現運動發生的空間位置外還體現了運動的時間先後順序。這2種特徵都是從背景減圖中獲取的。圖2是坐下,揮手,蹲伏這3個動作的運動歷史圖MHI。

                             

圖2 三種動作對應的MHI

  為了提前剪影資訊,Wang[21]等人利用r變換獲取了人體的剪影。Hsuan-Shen[22]則提取了人體的輪廓,這些輪廓資訊是用星型骨架描述基線之間夾角的,這些基線是從人體的手,腳,頭等中心延長到人體的輪廓。而Wang[23]同時利用了剪影資訊和輪廓資訊來描述動作,即用基於輪廓的平均運動形狀(MMS)和基於運動前景的平均能量(AME)兩個模板來進行描述。當把輪廓和剪影模板儲存下來後,新提取出的特徵要與其進行比較,Daniel[24]採用歐式距離來測量其相似度,隨後他又改為用倒角距離來度量[25],這樣就消除了背景減圖這一預處理步驟。

  除了利用輪廓剪影資訊外,人體的運動資訊也經常被採用。比如說基於畫素級的背景差法,光流資訊等。當背景差法不能很好的工作時,我們往往可以採用光流法,但是這樣經常會引入運動噪聲,Effos[26]只計算以人體中心點處的光流,這在一定程度上減少了噪聲的影響。

2.1.2  三維全域性特徵提取

  在三維空間中,通過給定視訊中的資料可以得到3D時空體(STV),STV的計算需要精確的定位,目標對齊,有時還需背景減圖。Blank[27][28]等人首次從視訊序列中的剪影資訊得到STV。如圖3所示。然後用泊松方程匯出區域性時空顯著點及其方向特徵,其全域性特徵是通過對這些區域性特徵加權得到的,為了處理不同動作的持續時間不同的問題,Achard[29]對每一個視訊採用了一系列的STV ,並且每個STV只是覆蓋時間維上的一部分資訊。

  還有一種途徑是從STV中提取相應的區域性描述子,這一部分將在區域性特徵提取一節中介紹,在這裡,我們還是先把STV特徵當做是全域性特徵。Batra[30]儲存了STV的剪影,並且用很小的3D二進位制空間塊來取樣STV。Yilmaz[31]提取了STV表面的不同幾何特徵,比如說其極大值點和極小值點。當然,也有學者Keel[32]將剪影的STV和光流資訊結合起來,作為行為識別的全域性特徵。

                       

圖3  跳躍,走,跑3個動作的STV圖

2.2    區域性特徵提取

  人體行為識別區域性特徵提取是指提取人體中感興趣的點或者塊。因此不需要精確的人體定位和跟蹤,並且區域性特徵對人體的表觀變化,視覺變化和部分遮擋問題也不是很敏感。因此在行為識別中採用這種特徵的分類器比較多。下面從區域性特徵點檢測和區域性特徵點描述2部分來做介紹。

2.2.1  區域性特徵點的檢測

  行為識別中的區域性特徵點是視訊中時間和空間中的點,這些點的檢測發生在視訊運動的突變中。因為在運動突變時產生的點包含了對人體行為分析的大部分資訊。因此當人體進行平移直線運動或者勻速運動時,這些特徵點就很難被檢測出來。

  Laptev[33]將Harris角點擴充套件到3D Harris,這是時空興趣點(STIP)族中的一個。這些時空特徵點鄰域的畫素值在時間和空間都有顯著的變化。在該演算法中,鄰域塊的尺度大小能夠自適應時間維和空間維。該時空特徵點如圖4所示。

                    

圖4  時空特徵點檢測圖

     Dollar[34]指出上述那種方法存在一個缺點,即檢測出來穩定的興趣點的數量太少,因此Dollar單獨的在時間維和空間維先採用gabor濾波器進行濾波,這樣的話檢測出來興趣點的數目就會隨著時間和空間的區域性鄰域尺寸的改變而改變。類似的,Rapantzikos[35]在3個維度上分別應用離散小波變換,通過每一維的低通和高通的濾波響應來選擇時空顯著點。同時,為了整合顏色和運動資訊,Rapantzikos[36]加入了彩色和運動資訊來計算其顯著點。

     與檢測整個人體中興趣點的出發思路不同,Wong[37]首先檢測與運動相關的子空間中的興趣點,這些子空間對應著一部分的運動,比如說手臂擺動,在這些子空間中,一些稀疏的興趣點就被檢測出來了。類似的方法,Bregonzio[38]首先通過計算後面幀的不同來估計視覺注意的焦點,然後利用gabor濾波在這些區域來檢測顯著點。

2.2.2  區域性特徵點的描述

  區域性特徵描述是對影象或者視訊中的一個塊進行描述,其描述子應該對背景的雜亂程度,尺度和方向變化等均不敏感。一個影象塊的空間和時間尺寸大小通常取決於檢測到的興趣點的尺寸。圖5顯示的是cuboids描述子[34]。

                       

                                        圖5 cuboids描述子

  特徵塊也可以用基於區域性特徵的網格來描述,因為一個網格包括了局部觀察到的領域畫素,將其看成一個塊,這樣就減少了時間和空間的區域性變化的影響。二維的SURF特徵[39]被Willems[40]擴充套件到了3維,這些eSURF特徵的每個cell都包含了全部Harr-wavelet特徵。Laotev[14]使用了局部HOG(梯度直方圖)和HOF(光流直方圖)。Klaser[41]將HOG特徵擴充套件到3維,即形成了3D-HOG。3D-HOG的每個bin都是由規則的多面體構成,3D-HOG允許 在多尺度下對cuboids進行快速密度取樣。這種將二維特徵點檢測的演算法擴充套件到3維特徵點類似的工作還有是將SIFT演算法[42]擴充套件到3維SIFT Scovanner[43]。在Wang[44]的文章中,他比較了各種區域性描述運算元,並發現在大多數情況下整合了梯度和光流資訊的描述運算元其效果最好。

  另外還有一種描述子比較流行,即單詞袋[45][46],這是利用的單詞頻率直方圖特徵。

2.3    全域性、區域性特徵融合

  全域性和區域性特徵的融合,結合了全域性特徵的足夠資訊量和區域性特徵的對視角變化,部分遮擋問題不敏感,抗干擾性強的優點。這樣的文章比較多,其主要思想結合從2.1和2.2的方法。Thi[47]就將這2種特徵結合得很好,其全域性特徵是採用前面介紹的MHI運算元,並且採用AIFT演算法[48]進一步選擇更好的MHI。區域性特徵也是採用前面提到的STIP特徵,並且採用SBFC(稀疏貝葉斯特徵選擇)[49]演算法過濾掉一些噪聲比較大的特徵點。最後將2種特徵送入到擴充套件的3維ISM模型中,其ISM[50]是一種目標識別常用演算法,即訓練出目標的隱式形狀模型。Thi[47]的方法結構如圖6所示。

                                

      圖6 區域性特徵和全域性特徵結合

3. 行為識別常見資料庫

3.1    Weizmann

  Weizmann[27]資料庫包含了10個動作分別是走,跑,跳,飛跳,向一側移動,單隻手揮動,2隻手揮動,單跳,2隻手臂揮動起跳,每個動作有10個人執行。在這個視訊集中,其背景是靜止的,且前景提供了剪影資訊。該資料集較為簡單。

3.2    KTH

  KTH[45]行人資料庫包含了6種動作,分別為走,慢跑,跑揮手和鼓掌。每種動作由25個不同的人完成。每個人在完成這些動作時又是在4個不同的場景中完成的,4個場景分別為室外,室內,室外放大,室外且穿不同顏色的衣服。

3.3    PETS

  PETS[51],其全稱為跟蹤與監控效能評估會議,它的資料庫是從現實生活中獲取的,主要來源於直接從視訊監控系統拍攝的視訊,比如說超市的監控系統。從2000年以後,基本上每年都會組織召開這個會議。

3.4    UCF

    UCF包含個數據集,這裡是指UCF的運動資料庫[52],該視訊資料包括了150個視訊序列,共有13個動作。因為是現實生活中的視訊資料,所以其背景比較複雜,這些種類的動作識別起來有些困難。

3.5    INRIA XMAS

  INRIA XMAS資料庫[53]是從5個視角拍攝的,室內的4個方向和頭頂的1個方向。總共有11個人完成14種不同的動作,動作可以沿著任意方向執行。攝像機是靜止的,環境的光照條件也基本不變。另外該資料集還提供有人體輪廓和體積元等資訊。

3.6    Hollywood

  Hollywood電影的資料庫包含有幾個,其一[14]的視訊集有8種動作,分別是接電話,下轎車,握手,擁抱,接吻,坐下,起立,站立。這些動作都是從電影中直接抽取的,由不同的演員在不同的環境下演的。其二[54]在上面的基礎上又增加了4個動作,騎車,吃飯,打架,跑。並且其訓練集給出了電影的自動描述文字標註,另外一些是由人工標註的。因為有遮擋,移動攝像機,動態背景等因素,所以這個資料集非常有挑戰。

4. 總結

  本文較全面的介紹了行為識別中特徵提取的方法,並將其分為全域性特徵提取和區域性特徵提取2個部分介紹,雖然自行為識別研究以來已經取得了不少成果,但是由於視覺中的動態環境,遮擋等問題存在,其挑戰非常大,需要提取出魯棒性更好,適應性更強,效果更好的特徵,而這仍是後面幾年甚至幾十年不斷追求努力才能達到的目標。

參考文獻:

  1. Johansson, G. (1975). "Visual motion perception." Scientific American.
  2. Aggarwal, J. K. and Q. Cai (1997). Human motion analysis: A review, IEEE.
  3. Moeslund, T. B. and E. Granum (2001). "A survey of computer vision-based human motion capture." Computer vision and image understanding 81(3): 231-268.
  4. Moeslund, T. B., A. Hilton, et al. (2006). "A survey of advances in vision-based human motion capture and analysis." Computer vision and image understanding 104(2): 90-126.
  5. Turaga, P., R. Chellappa, et al. (2008). "Machine recognition of human activities: A survey." Circuits and Systems for Video Technology, IEEE Transactions on 18(11): 1473-1488.
  6. Poppe, R. (2010). "A survey on vision-based human action recognition." Image and Vision Computing 28(6): 976-990.
  7. Aggarwal, J. and M. S. Ryoo (2011). "Human activity analysis: A review." ACM Computing Surveys (CSUR) 43(3): 16.
  8. Forsyth, D. A., O. Arikan, et al. (2006). Computational studies of human motion: Tracking and motion synthesis, Now Pub.
  9. Gavrila, D. M. (1999). "The visual analysis of human movement: A survey." Computer vision and image understanding 73(1): 82-98.

  10. Ikizler-Cinbis, N., R. G. Cinbis, et al. (2009). Learning actions from the web, IEEE.

  11. Gupta, S. and R. J. Mooney (2009). Using closed captions to train activity recognizers that improve video retrieval, IEEE.

  12. Cour, T., C. Jordan, et al. (2008). Movie/script: Alignment and parsing of video and text transcription.

  13. Duchenne, O., I. Laptev, et al. (2009). Automatic annotation of human actions in video, IEEE.

  14. Laptev, I., M. Marszalek, et al. (2008). Learning realistic human actions from movies, IEEE.

  15. Haritaoglu, I., D. Harwood, et al. (1998). "W 4 S: A real-time system for detecting and tracking people in 2 1/2D." Computer Vision—ECCV'98:      877-892.

  16. Tao, D., X. Li, et al. (2006). Human carrying status in visual surveillance, IEEE.

  17. Davis, J. W. and S. R. Taylor (2002). Analysis and recognition of walking movements, IEEE.

  18. Lv, F., X. Song, et al. (2006). Left luggage detection using bayesian inference.

  19. Auvinet, E., E. Grossmann, et al. (2006). Left-luggage detection using homographies and simple heuristics.

  20. Bobick, A. F. and J. W. Davis (2001). "The recognition of human movement using temporal templates." Pattern Analysis and Machine Intelligence,        IEEE Transactions on 23(3): 257-267.

  21. Wang, Y., K. Huang, et al. (2007). Human activity recognition based on r transform, IEEE.

  22. Chen, H. S., H. T. Chen, et al. (2006). Human action recognition using star skeleton, ACM.

  23. Wang, L. and D. Suter (2006). Informative shape representations for human action recognition, Ieee.

  24. Weinland, D., E. Boyer, et al. (2007). Action recognition from arbitrary views using 3d exemplars, IEEE.

  25. Weinland, D. and E. Boyer (2008). Action recognition using exemplar-based embedding, Ieee.

  26. Efros, A. A., A. C. Berg, et al. (2003). Recognizing action at a distance, IEEE.

  27. Blank, M., L. Gorelick, et al. (2005). Actions as space-time shapes, IEEE.

  28. Gorelick, L., M. Blank, et al. (2007). "Actions as space-time shapes." Pattern Analysis and Machine Intelligence, IEEE Transactions on 29(12):          2247-2253.

  29. Achard, C., X. Qu, et al. (2008). "A novel approach for recognition of human actions with semi-global features." Machine Vision and Applications        19(1): 27-34.

  30. Batra, D., T. Chen, et al. (2008). Space-time shapelets for action recognition, IEEE.

  31. Yilmaz, A. and M. Shah (2008). "A differential geometric approach to representing the human actions." Computer vision and image understanding           109(3): 335-351.

  32. Ke, Y., R. Sukthankar, et al. (2007). Spatio-temporal shape and flow correlation for action recognition, IEEE.

  33. Laptev, I. (2005). "On space-time interest points." International journal of computer vision 64(2): 107-123.

  34. Dollár, P., V. Rabaud, et al. (2005). Behavior recognition via sparse spatio-temporal features, IEEE.

  35. Rapantzikos, K., Y. Avrithis, et al. (2007). Spatiotemporal saliency for event detection and representation in the 3D wavelet domain: potential in        human action recognition, ACM.

  36. Rapantzikos, K., Y. Avrithis, et al. (2009). Dense saliency-based spatiotemporal feature points for action recognition, Ieee.

  37. Wong, S. F. and R. Cipolla (2007). Extracting spatiotemporal interest points using global information, IEEE.

  38. Bregonzio, M., S. Gong, et al. (2009). Recognising action as clouds of space-time interest points, IEEE.

  39. Bay, H., T. Tuytelaars, et al. (2006). "Surf: Speeded up robust features." Computer Vision–ECCV 2006: 404-417.

  40. Willems, G., T. Tuytelaars, et al. (2008). "An efficient dense and scale-invariant spatio-temporal interest point detector." Computer Vision–ECCV        2008: 650-663.

  41. Klaser, A. and M. Marszalek (2008). "A spatio-temporal descriptor based on 3D-gradients."

  42. Mikolajczyk, K. and C. Schmid (2004). "Scale & affine invariant interest point detectors." International journal of computer vision 60(1): 63-86.

  43. Scovanner, P., S. Ali, et al. (2007). A 3-dimensional sift descriptor and its application to action recognition, ACM.

  44. Wang, H., M. M. Ullah, et al. (2009). "Evaluation of local spatio-temporal features for action recognition."

  45. Niebles, J. C., H. Wang, et al. (2008). "Unsupervised learning of human action categories using spatial-temporal words." International journal of        computer vision 79(3): 299-318.

  46. Schuldt, C., I. Laptev, et al. (2004). Recognizing human actions: A local SVM approach, IEEE.

  47. Thi, T. H., L. Cheng, et al. (2011). "Integrating local action elements for action analysis." Computer vision and image understanding.

  48. Liu, G., Z. Lin, et al. (2009). "Radon representation-based feature descriptor for texture classification." Image Processing, IEEE Transactions on        18(5): 921-928.

  49. Carbonetto, P., G. Dorkó, et al. (2008). "Learning to recognize objects with little supervision." International journal of computer vision 77(1): 219-       237.

  50. Leibe, B., A. Leonardis, et al. (2008). "Robust object detection with interleaved categorization and segmentation." International journal of

    computer vision 77(1): 259-289.

  52. Rodriguez, M. D. (2008). "Action mach a spatio-temporal maximum average correlation height filter for action recognition." CVPR.

  53. Weinland, D., R. Ronfard, et al. (2006). "Free viewpoint action recognition using motion history volumes." Computer vision and image

    understanding 104(2): 249-257.

  54. Marszalek, M., I. Laptev, et al. (2009). Actions in context, IEEE.