1. 程式人生 > 實用技巧 >行為識別 論文筆記(一):Going Deeper into Action Recognition - A Survey

行為識別 論文筆記(一):Going Deeper into Action Recognition - A Survey

文章地址:https://arxiv.org/abs/1605.04988

First, what is a action

leg movement on a football kick : simple motion

jumping for a head-shoot : collective movements

Action is the most elementary human -surrounding interaction with a meaning

interaction : relative motions with respect to the surrounding

行為是人類最基本的在一定環境下產生意義的互動(與環境)

對演算法的分類

  • 基於特徵表示的方案和基於深度學習的方案

早期的行為識別使用 3D 模型描述行為,如WALKER模型;圓筒描述肢體的模型,但是由於構造 3D 模型比較難且昂貴,所以採用整體代表或者區域性代表的形式

全域性表徵

Bobick 和 Davis(2001)提出了Motion Energy Image(MEI) 以及Motion History Image(MHI) ,用單一影象編碼與行為相關的資訊。

MEI是描述動作發生的位置的影象
E τ ( x , y , t ) = ⋃ i = 0 τ − 1 D ( x , y , t − i ) . E_{\tau}(x,y,t) = \bigcup\limits^{\tau-1}_{i=0}D(x,y,t-i).

Eτ(x,y,t)=i=0τ1D(x,y,ti).

D ( x , y , t ) D(x,y,t) D(x,y,t) 是一個二值影象序列,表示檢測到的物體畫素; E τ E_\tau Eτ 表示 τ \tau τ 時刻形成的MEI ( E E E D D D 在時間上的集合)。運動能量圖顯示了運動的輪廓和能量的空間分佈。

MHI 表示了動作影象是怎樣移動的,MHI 中的每一個畫素都是該點的時間上動作的函式。通過計算時間段內同一位置的畫素變化,將目標運動情況以影象亮度的形式表現出來。它的每個畫素的灰度值表示了在一組動作序列中該位置畫素的最近的運動情況,最後運動的時刻越接近當前幀,該畫素的強度值越高。因此,MHI影象可以表徵人體在一個動作過程中最近的動作情況,這使得MHI被廣泛應用於動作識別領域。

MEI 和 MHI 包含了有關視訊背景的有用的資訊,比如MHI模板的梯度用於過濾移動和雜亂的背景:通過使用Harris 興趣點檢測器在 MHI模板中確定關鍵運動區域,然後將移動/雜亂的背景識別為與感興趣點周圍運動不一致的區域。

例如這是一個“跳”的動作序列,中間是運動能量圖(MEI),下面是運動歷史圖(MHI)。MEI捕捉動作發生的位置,MHI表示動作影象是如何移動的。最右邊的列顯示的在一個行為結束時的模板影象。

MEI的擴充套件版本的主要思想是通過其輪廓在時空中產生的三維形狀來表示一個動作。為便於分類,通過計算曲面內各點到達邊界所需的平均時間,將得到的3維曲面轉換為二維圖。一些研究認為用3維的圖表示增強了對於視角變化的魯棒性。

有研究建議根據時空體(STV)的差異特性來識別動作,STV是通過沿時間軸堆疊物件輪廓實現的。STV在方向,速度和形狀上的改變固有地描述潛在的行為。動作的輪廓是從STV表面提取的一組屬性(比如高斯曲率),並且在觀測點變化時表現出魯棒性。

左圖:用於描述動作演變過程的時空體,通過計算到達邊界點所用的平均時間將三維表示轉換為二維圖 右圖:是髮網球和走路序列的時空曲面。表面幾何結構(如峰、谷)用於表示一個行為

視訊的整體表示大致在1997年至2007年之間主導著行動識別的研究,因為這種表徵更有可能保留行動的空間和時間結構。然而,現在,區域性和深度表徵收到青睞。這種轉變有多種原因。例如,Dollar等人聲稱整體方法過於僵化,無法捕捉行動的可能變化(例如,視角、外觀、遮擋)。Matikainen等人認為以輪廓為基礎的表徵無法在輪廓內捕捉細節。

區域性特徵的方法

動作識別中區域性特徵的方法來自 Laptev 在時空感興趣點(STIPs)方面創造性的工作 。區域性表徵遵循以下流程:interest point detection ⟶ \longrightarrow local descriptor extraction ⟶ \longrightarrow aggregation of local descriptors.

1. 興趣點檢測

為了構建一個時空興趣點檢測器,Laptev將 Harris 角點檢測器擴充套件到 3D-Harris 檢測器。在3D-Harris中,為了觸發檢測器(理解為正常使用)需要豐富的空間結構和時間資訊。二維哈里斯角探測器的想法是在影象中找到在兩個正交方向有顯著變化的空間位置。3D-Harris檢測器識別空間變化較大且運動不恆定的點。

紅色的點就是檢測到的感興趣點,沿時間軸(用箭頭標記)的空間變化是明顯的。因此,儘管有大量的空間特徵,但在面部沒有發現時空興趣點。同樣,在她的腰部,由於有限的空間變化,無法檢測到時空興趣點。(未滿足空間時間條件)

另一個廣泛使用的2D興趣點檢測器是Hessian檢測器,同樣擴充套件到了它對應的3D版本。與3D-Harriss使用梯度檢測興趣點的方式不同,它使用的是二階導數最為檢測依據。

Dollar等人注意到在某些方面,例如面部表情,3D-Harris或3D-Hessian探測器所要求的真正的時空角落是相當罕見的,即使發生了有趣的運動。雖然稀疏的時空資訊在一定程度上是可取的,但太少的STIP可能會導致動作難以識別。為了克服這一侷限性,Dollar等人提出將空間濾波從時間濾波中分解出來,由此產生的檢測器可以對任何在經歷複雜運動的具有空間區別特徵的區域作出響應。

不像圖片那樣,視訊有複雜的背景環境,在處理視訊時要小心,因為好的特徵很可能會糾纏於和目標無關的細節。比如一個晃動的攝像頭很可能會產生很多我們不需要的興趣點。為了解決這個問題,Liu等人建議使用檢測到的興趣點的統計特性來去除不相關的特徵。此外,從背景中獲取的時空特徵被稱為靜態特徵,特別是靠近運動區域的特徵對動作識別非常有用。

2. 區域性特徵描述符

一個3D長方體或者說一個長方體是一個由檢測到的興趣點周圍的畫素構成的立方體。了在某個感興趣的點獲得區域性描述符,早期的作品幾乎一致地選擇長方體,後來提出了使用軌跡來表示。

邊緣和運動描述符

Klaser等建議使用梯度方向的直方圖作為描述符,受HOG的啟發,由於描述符本身是在時空領域的,因此命名為HoG3D.

光流場可以編碼視訊片段中畫素級別的運動,受此啟發,Laptev等人提出將區域性區域的光流直方圖(HoF)作為時空描述符,Dalal等人對HoF進行擴充套件得到了魯棒性更好的運動邊界直方圖(MBH)。MBH是在運動邊界上計算得到的,也就是光流場的空間導數(如下圖)。計算光流場十分昂貴,為克服此問題,作者建議使用視訊解壓技術。更具體地說,作者使用MPEG壓縮中的運動場而不是計算光流場以得到MBH或者HoF描述符。這種運動場稱為MPEG流,在視訊譯碼過程中很容易獲得。

MBH 運動影象 b: 空間梯度 c,d分別為水平和垂直邊界影象不同於忽略運動資訊的空間梯度,運動邊界影象(MBH的影象)偏重於用運動物體的邊界,運動邊界影象是通過計算光流場的梯度得到的。

畫素模型描述符

區域性二值模式(LBP)是基於強度的2D描述符,在臉部識別和紋理分析等視覺問題上成功應用,LBP描述符是通過對畫素的鄰域與其強度進行量化來計算的。

LBP的擴充套件:

  • Zhao和Pietikainen(2007)將二維LBP描述符擴充套件到時空域
  • 在體積LBP(VLBP)中,區域性體積由二進位制的直方圖編碼,雖然比較簡單,但是它產生的不同的特徵的數量對於大一點的鄰域來說就有點太多了.(Zhao and Pietikainen, 2007).
  • LBP-TOP:在三個正交的平面上使用區域性二值模式來得到描述符(Kellokumpu)
  • 三個平面擴充套件到9個平面(Norouznezhad)

Tuzel等人提出了利用二階統計量來描述影象區域。確切地來說,為了描述影象中的區域 R R R ,首先從 R R R 中提取出一組特徵 {} { z i } i = 1 n \{z_i\}^n_{i=1} {zi}i=1n z i ∈ R d z_i\in \R^d ziRd (稀疏或密集方法)。這裡常見的選擇是低階特徵(例如梯度、RGB強度)或中級特徵(例如SIFT或HoG)。 { z i } i = 1 n \{z_i\}^n_{i=1} {zi}i=1n d × d d\times d d×d 協方差矩陣(通常被稱為區域協方差描述符RCD)作為 R R R 的描述符,由於它的自然黎曼幾何結構,RCDs對尺度和轉換的變化是魯棒的,並且有抗噪能力。

左圖: Kellokumpu等受到Zhao LBP- top描述符的啟發在動作識別中的LBP提取面。這裡視訊流被視為一個時空體,LBP描述子僅從兩個正交平面提取到影象平面

右圖:時空協方差描述符(Sanin et al),給出一個時空視窗 R R R ,首先從 R R R 中提取一組特徵向量 z i z_i zi ,然後用抽取的特徵向量 z i z_i zi d × d d\times d d×d 協方差來描述此視窗

立方體到軌跡

一個時空興趣點可能不位於長方體的時間範圍內完全相同的空間位置,所以從立方體(以上描述符都屬於立方體型)提取的特徵可能不一定可以精確描述興趣點。軌跡是隨著時間的推移可以正確跟蹤的特徵。在Messing et al. (2009)和 Matikainen et al. (2009)的相關工作以後,從軌跡中提取區域性特徵開始流行,有趣的是,這兩位的研究都使用軌跡的速度作為區域性特徵。

軌跡之間的相對運動(比如方向、大小、和位置上的差異)可以描述某些特定的動作型別,特別是那些涉及人與人之間互動的動作比如握手。Jiang等人提出使用攝像機運動矯正軌跡會帶來改進;他們還將軌跡進行聚類來確定序列中的主導運動。假設主要運動是由相機引起的,並且通過對原始軌跡進行減法或仿射變換進行了補償。儘管如此,兩項研究都發現,如果視訊的大部分都被實際動作覆蓋,則這種補償可能會產生誤差。

稀疏或密集

以前用的多的是稀疏的興趣點,現在多用密集取樣,並且表現出了優越性。

3. 聚類(特徵融合)

F = { f i } i = 1 n \mathbb F = \{f_i\}^n_{i=1} F={fi}i=1n , f i ∈ R d f_i \in \R^d fiRd 作為從視訊中提取的區域性特徵。為了實現動作識別,我們需要一個機制來從這些集合中學習並且最終比較它們。像支援向量機(SVM)等學習演算法大都接受固定尺寸的向量,不能處理不同大小的集合(每個視訊區域性特徵的數量是不同的)。為了使用這些學習演算法,需要一種方法將區域性特徵集聚合成有區別的、固定大小的描述符。為了實現此方式,基於視覺詞袋(Bag-of-Visual Words BoV)和字典學習概念的結構成了最好的選擇。

1)使用BoV 融合

簡單來說,給定一個視覺詞表或者程式碼本 $\mathbb D = {d_j}^k_{i=1} $ ( d j ∈ R d d_j \in\R^d djRd ) 。在密碼本 D \mathbb D D 中給定的一組區域性描述符 F = { f i } i = 1 n \mathbb F = \{f_i\}^n_{i=1} F={fi}i=1n f i ∈ R d f_i \in \R^d fiRd) 的分佈被當作描述符。

在BoV中,出現的視覺單詞的直方圖被用作描述符,也就是把將每個視覺單詞 d j d_j dj看作和區域性特徵 f i f_i fi匹配度最高的頻率作為描述符。早期的BoV忽略了時間資訊,為克服此缺點,Laptev等人提出了時空網格的概念。主要思想就是將一個視訊分割為很多小視訊,把每個小視訊的區域性特徵進行融合來構成所謂的“通道”並且根據通道描述符來比較視訊。與BoV概念相同的改進是分層BoV,基本詞彙表是使用HoG3D描述符學習的,在考慮了時空鄰域的情況下,通過聚合它們的直接較低層次的描述符來構造其他層次的詞彙。

最近,又出現了通過Fisher Vector(FV)編碼的融合方法,這種方法基於Fisher Kernels原理:它結合了模式分類的生成和判別方法的優點。BoV和FV最主要的區別就是:1)BoV採用硬分配來實現特徵融合,而FV則使用軟分配。2)假設特徵生成的底層模型是高斯混合模型,BoV只考慮了聚合中的0階資訊出現的次數,而FV使用一階和二階統計量。軌跡中的FV編碼在一些研究中表現出了最佳效能。彭等人引入了堆疊式FVs,可以理解為對Laptev等人提出的時空網格的擴充套件。

FVs一般使用高緯度,在某些程式中是冗餘的。FV的簡化版本稱為向量的區域性聚合描述符(VLAD),取消了描述符中的二階資訊。,最終VLAD描述符的維度大概只有FVs的一半。利用從時空特徵中獲取的VLAD描述符可以進行動作識別

2)使用時空字典學習和稀疏編碼進行特徵融合

在過去的十年時間裡,稀疏編碼已經成為神經科學、資訊理論、訊號處理等相關領域的熱門選擇。通過稀疏編碼,可以只用一些非零係數來表示像影象這樣的自然訊號,即使用合適的字典的幾個原子進行線性分解。在計算機視覺中,稀疏影象表示最初是(Olshausen and Field)在人類視覺系統中模擬細胞的空間感受野時介紹的。接下來的研究顯示,在各種視覺推理任務中,如人臉識別,子空間聚類和影象復原都取得了顯著的結果。

在動作識別領域,zhu等人使用稀疏編碼的原理來融合區域性時空特徵。他們使用學習字典,對從均勻分佈的時空長方體獲得的HoG3D特徵進行編碼。對稀疏程式碼進行最大池化來得到視訊描述符。此外,為了學習字典,他們建議在沒有標籤的視訊資料中進行遷移學習。

guha和ward 在動作檢測的任務中研究了多種形式的字典。最簡單的一種是包含了所有動作類別的公共字典,但是當有新的動作類別引入時,這種公共字典就有侷限性了,因為已有的類別不具有代表性。為解決此問題,提出了使用類特異的字典。

為了提取時空特徵,Somasundaram等(2014)提出了顯著時空區域。其主要思想受到資訊理論原理的啟發,闡明瞭一個時空區域的顯著性是通過其結構的複雜性體現出來的。通過使用字典,可通過最小描述長度的概念來估算每幀的結構複雜性。直觀來看,表示它所需要的位元數隨著資料的規律性增加而減少了

受目標庫方法的啟發,sadanand and corso 提出了“動作庫”:其中的動作由充當高維“動作空間”字典的大量檢測器來描述。我們指出,動作庫本身是一個高階詞典。shao等人提出了一個與此相關的觀點:使用3D高斯濾波器的拉普拉斯運算元構建動作空間。兩種方法都使用金字塔結構來增強跨時空域的魯棒性。

3)時間相干融合

我們通過描述將時間資訊明確納入視訊描述符的時空資訊融合的研究來總結此部分

深度結構

由於深度和資料驅動的架構,我們正在見證無數任務上的的重大進步。深度神經網路,比如卷積神經網路,已經成為了研究影象內容的首選方法。一般來說,現在研究的問題是從現有的資料中確定一個複雜的決策函式。在深層架構中,這是通過組合多層非線性操作來實現的。考慮到決策面的非凸性,尋找深層結構的引數空間不是一件容易的事。在有大量標註資料的條件下,依賴於大算力的梯度下降演算法是比較成功的方法。

在本節中,我們的目的是討論已用於(或可能用於)解決從視訊中學習動作問題的深層模型。從分類的角度來看,我們可以把應用於動作識別的結構分為四類,即:

  • 時空網路
  • 多流網路
  • 深度生成網路
  • 時間相干網路

1.時空網路

卷積結構通過池化和權值共享有效地利用影象結構減少搜尋空間,池化和權值共享也對尺度變換和空間變換有魯棒性。通過分析CNN結構的卷積核可以發現最初的卷積層學習低階特徵,而高層學習高階的特徵,這進一步擴充套件了卷積網路作為通用特徵提取器的使用。使用深度網路進行動作識別的一個直接方法是在卷積操作中加入時間資訊。,因此產生了3D卷積網路。3D卷積網路使用3D卷積核(在時間軸上擴充套件filters)在時間和空間維度上提取資訊,從而希望能獲得在時空資訊和相鄰幀中編碼的動作。實際上為網路補充一些資訊(如光流)來加速訓練是很重要的。Ji等人(2013)的經驗表明,3D卷積網路的效能明顯優於基於2D幀的對應網路。

一般來說,三維卷積網路具有非常嚴格的時間結構,網路的輸入是先定義好數量的幀入(例如Ji等人(2013)的輸入只有7幀)。雖然使用固定的空間維度是有道理的(空間池化可以提高跨尺度的魯棒性),但是為什麼在時間維度上也這樣設定尚不清楚原因。更不清楚的是時間跨度的正確選擇,因為在不同的行動中的巨集觀運動有不同的速度,因此不同的跨度。

為了回答如何將時間資訊輸入卷積網路,人們研究了各種融合方案。吳恩達等人研究了時間池化,得出的結論是在時域上最大池化表現更好Karpathy等(2014)提出了慢融合的概念,以提高卷積網路的時間感知能力。在慢融合中,卷積網路接受視訊的幾個連續的部分並使用相同的層來處理他們以產生跨時域的響應。

其他形式的融合還有早期融合(向網路輸入一組相鄰的幀)和後期融合(在最後的網路層中融合幀的特徵)Karpathy等人(2014)還表明,使用兩個獨立網路的多解析度方法不僅提高了精確度,還減少了需要學習的引數的數量。這是因為每個網路的輸入都變小了。我們注意到fovea stream 接收幀的中心區域以利用很多視訊中都有的相機的偏差,因為感興趣的物件通常佔據中心區域。

像使用VGG和Decaf網路作為影象的通用描述符一樣,Tran等試圖找到一種基於3D卷積網路的通用視訊描述符。他們在Sports-1M資料集上訓練特徵提取網路。經驗表明,使用 3 × 3 × 3 3\times 3\times 3 3×3×3 的同質卷積核(每一層的深度固定)比時間深度變化的卷積核表現更好。通過使用3D池化層,可以獲得時間範圍上的靈活性。通過對C3D網路的第一全連線層的輸出進行平均得到一種通用的描述符叫C3D。