1. 程式人生 > >深度學習助力實現智慧行為分析和事件識別

深度學習助力實現智慧行為分析和事件識別

作者:趙放、杜勇、王洪鬆、吳子豐

行為識別是指通過分析視訊、深度感測器等資料,利用特定的演算法,對行人的行為進行識別、分析的技術。這項技術被廣泛應用在視訊分類、人機互動、安防監控等領域。行為識別包含兩個研究方向:個體行為識別與群體行為(事件)識別。近年來,深度攝像技術的發展使得人體運動的深度影象序列變得容易獲取,結合高精度的骨架估計演算法,能夠進一步提取人體骨架運動序列。利用這些運動序列資訊,行為識別效能得到了很大提升,對智慧視訊監控、智慧交通管理及智慧城市建設等具有重要意義。同時,隨著行人智慧分析與群體事件感知的需求與日俱增,一系列行為分析與事件識別演算法在深度學習技術的推動下應運而生。下面將介紹我們最新的相關研究。


圖1 行為識別的定義及應用領域

1.基於層級化迴圈神經網路的人體骨架運動序列行為識別

目前基於人體骨架的行為識別方法主要可分為兩類:1)基於區域性特徵的方法:該類方法是對序列中的各時刻的人體骨架的區域性幾何結構做特徵提取,然後利用詞包(Bag of Words, BoW)模型結合時間金字塔(Temporal Pyramid, TP)或是結合動態時間規整(Dynamic Time Warping, DTW)進行識別,該類方法沒有或是隻能區域性考慮運動序列的時序資訊,其識別過程更多地依賴區域性靜態結構特徵;2)基於序列狀態轉移的方法:該類方法主要是利用HMM 對行為演化的動態過程進行建模,其兩個主要不足是不僅需要對序列做預對齊,同時還需要估計狀態轉移過程的遷移概率,這本是兩個比較困難的問題,其識別的精度也往往偏低。本研究主要基於微軟的Kinect 和運動捕獲系統提取的人體骨架運動序列,結合人體運動的相對性,提出了基於遞迴神經網路的人體骨架運動序列的行為識別模型。提出的模型首先對已經提取好的人體骨架姿態序列中節點座標進行歸一化,以消除人體所處絕對空間位置對識別過程的影響,利用簡單平滑濾波器對骨架節點座標做平滑濾波以提高信噪比,最後將平滑後的資料送入一個層次化雙向遞迴神經網路同步進行深度特徵表達提取、融合及識別,同時提供了一種層次化單向遞迴神經網路模型以應對實際中的實時分析需求。該方法主要優點是根據人體結構特徵及運動的相對性,設計端到端的分析模式,在實現高精度識別率的同時避免複雜的計算,便於實際應用。本工作及其擴充套件版本先後發表在CVPR-2015及IEEE TIP-2016上。

圖2 基於層級化RNN的人體骨架序列行為識別示意圖

2.基於雙流迴圈神經網路的行為識別

由於深度感測器的成本的降低和實時的骨架估計演算法的出現,基於骨架的行為識別研究越來越受歡迎。傳統方法主要基於手工特徵設計,對行為中運動的表達能力有限。最近出現了一些基於迴圈神經網路的演算法,可以直接處理原始資料並預測行為。這些方法只考慮了骨架座標隨著時間的動態演變,而忽略了它們在某一個時刻的空間關係。在本文中,我們提出一種基於雙流迴圈神經網路的方法如圖三,分別對骨架座標的時間動態特性和空間相對關係建模。對於時間通道,我們探索了兩種不同的結構:多層迴圈神經網路模型和層次化的迴圈神經網路模型。對於空間通道,我們提出兩種有效的方法把座標的空間關係圖轉換為關節點的序列,以方便輸入到迴圈神經網路中。為了提高模型的泛化能力,我們探究了基於三維座標變換的資料增強技術,包括旋轉、縮放和剪下變換。 在深度視訊的行為識別標準資料庫的測試結果顯示,我們的方法對於一般行為,互動式行為和手勢的識別結果都有相當大的提高。該工作已被CVPR-2017接收。


圖3 基於雙流RNN的骨架的行為識別方法

3.基於類相關玻爾茲曼機的視訊事件分析

我們研究了有監督模型中的視訊表達學習,以期望利用類標籤學到更有區分力的表達,可同時用於視訊分類和檢索。我們知道,由於低層視覺特徵與類標籤之間的語義鴻溝、高維低層特徵對後續分析所產生的計算代價以及有標籤訓練樣本的缺乏,在不受控制的網路視訊中分析無結構的群體行為和事件是一個非常具有挑戰性的任務,如圖四所示。為了克服這些困難,我們希望能夠學習一個含有語義資訊的緊湊中層視訊表達。因此,我們提出了一種新的有監督概率圖模型:類相關受限玻爾茲曼機(Relevance Restricted Boltzmann Machine, ReRBM),學習一種低維的隱語義表達用於複雜行為和事件分析。提出的模型在受限玻爾茲曼機(RBM)的基礎上進行了一些關鍵性擴充套件:1)將稀疏貝葉斯學習與RBM結合來學習具有區分力的與視訊類相關的隱含特徵;2)將RBM中的二進位制隨機隱含單元替換為非負線性單元來更好的解釋複雜視訊內容,並使得變分推理能夠適用於提出的模型;3)開發了有效的變分EM演算法用於模型的引數估計和推理。我們在三個具有挑戰性的標準視訊資料集(Unstructured Social Activity Attribute、Event Video和Hollywood2)上對提出的模型進行了評估。實驗結果表明,相比其他的一些隱變數概率圖模型如圖五所示,提出的模型所學到的類相關特徵提供了對視訊資料更具有區分力的語義描述,在分類準確率和檢索精度上獲得了最好結果,特別是在使用很少有標籤訓練樣本的情況下。這項工作發表在機器學習、神經訊號處理領域頂級國際會議NIPS 2013上,其擴充套件後的版本被計算機視覺領域頂級國際期刊IJCV 2016發表。

圖 4 不同型別的活動 (簡單動作、結構化活動、非結構化群體事件)


圖5 基於類相關受限玻爾茲曼機的視訊表達

4.採用雙通道卷積神經網路的基於行走行為的身份識別

基於行走行為的身份識別,即步態識別一般指的是給定一個步態序列,要求從一個匹配庫中找出與之最相似的序列,從而確定所給定序列中人的身份。步態是遠距離、非受控情況下唯一可感知的生物特徵,使用範圍可遠達50米,在遠距離大範圍的視覺監控場合具有不可替代的應用前景和研究價值。我們提出的方法處理的是預先提取好的步態能量圖(Gait Energy Images,GEI),步態能量圖是將視訊序列中提取出的行人剪影對齊後沿時間維度平均得到的一種2D的灰度影象。首先,考慮到基於步態能量圖的步態識別中區域性細節差異的重要性,多點的區域性比較應該會優於一次全域性比較;其次,兩個處於不同視角的樣本可能會在表觀上出現巨大的差異,如果只考慮比較單元自己的區域性區域,將很難捕捉到足夠的資訊進行比較;另外還需要判別式地學習特徵和比較模型。以上的三點都可以在一個深度卷積神經網路中實現,從而我們提出了基於上下文的跨視角步態識別方法如圖六所示,在極為困難的同時跨視角和行走狀態的任務中,也能夠達到足夠讓人接受的識別效率。相關成果已發表在IEEE TMM-2015與TPAMI-2017上。


圖6 步態識別流程圖與提出的模型結構圖

參考文獻

[1] Yong Du, Wei Wang, and Liang Wang. Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition. IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR). 2015.

[2] Yong Du, Yun Fu, Liang Wang. Representation Learning of Temporal Dynamics for Skeleton-Based Action Recognition. IEEE Transactionson Image Processing (TIP). 2016.

[3] Hongsong Wang and Liang Wang. Modeling Temporal Dynamics and Spatial Configurations of Actions Using Two-Stream Recurrent Neural Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017.

[4] Fang Zhao, Yongzhen Huang, Liang Wang, Tieniu Tan. Relevance Topic Model for Unstructured Social Group Activity Recognition. Advances in Neural Information Processing Systems (NIPS). 2013.

[5] Fang Zhao, Yongzhen Huang, Liang Wang, Tao Xiang, and Tieniu Tan. Learning Relevance Restricted Boltzmann Machine for Unstructured Group Activity and Event Understanding. International Journal of Computer Vision (IJCV).2016.

[6] Zifeng Wu, Yongzhen Huang, Liang Wang. Learning Representative Deep Features for Image Set Analysis. IEEE Transactions on Multimedia (TMM). 2015.

[7] Zifeng Wu, Yongzhen Huang, Liang Wang, Xiaogang Wang, and Tieniu Tan. A Comprehensive Study on Cross-View Gait Based Human Identification with Deep CNNs. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 2017.