1. 程式人生 > >論文筆記-Temporal segment network:towards good practices for deep action recognition

論文筆記-Temporal segment network:towards good practices for deep action recognition

1-摘要

      卷積神經網路在圖片的視覺識別方面已經取得了巨大的成功,然而關於視訊的動作識別,成果還不是那麼明顯。這篇文章意在發現一種能夠針對視訊的行為識別設計有效的卷積神經網路結構並能夠在有限的訓練樣本下學習這些模型。這篇文章最主要的貢獻:Temporal Segment Network(TSN)--一種新型的基於視訊的行為識別的網路結構。它將稀疏時間取樣策略和基於視訊的監督相結合,使用整個視訊支援有效的學習。本文的另一個貢獻就是利用TSN網路結構學習卷積神經網路在視訊資料方面的處理。

2-Introduction

      卷積神經網路在基於視訊的行為識別方面難以展開的原因有兩方面,一方面:long-range時間結構在理解行為視訊上起著重要作用,但是主流的神經網路結構通常只關注appearences和short-term運動。另一方面:在實際中,訓練深度卷積神經網路需要較大的訓練樣本來使得效能最佳,但是這方面的資料資源有限。

這些挑戰都促使我們來解決以下兩個主要問題:(1)如何設計一種有效的基於視訊的網路結構能夠學習視訊的表現進而捕捉long-range時間結構。(2)如何在有限的訓練樣本下學習卷積神經網路模型。

      本文設計的TSN網路結構能夠在一段長的視訊序列中通過稀疏取樣的方法提取短片斷(short snippets),這些樣本在時間維度上服從均勻分佈,因此,利用segmental structure從取樣得到的片段中搜集資訊。

two-stream卷積神經網路的4種輸入形式:RGB image,stacked RGB difference,stacked optical flow field,stacked warped optical flow field。在UCF101和HMDB51兩個資料集上進行實驗驗證所提出方法的有效性。

3-Action Recognition with Temporal Segment Network

      首先介紹TSN的基本網路結構,接著研究在TSN結構下學習two-stream卷積神經網路的good practices,最後介紹針對學到的two-stream卷積神經網路的測試細節。

     3.1 Temporal Segment Network

     對於一個輸入的視訊,將被分成K個segments,從每個segment中隨機地選擇一個short snippet。將選擇的snippets通過two-stream卷積神經網路得到不同snippets的class scores,最後將它們融合。

    3.2 Learning Temporal Segment Network

   Network Architecture:網路結構在神經網路的設計中是要考慮的重要因素,很多工作表明網路結構的深度能夠改善物體識別的效能。我們選擇Batch Normalization(BN)-Inception結構設計two-stream 卷積神經網路:空間stream卷積神經網路作用在single RGB images,時間stream卷積神經網路以stacked optical flow field 作為輸入。

    Network Inputs:期初,two-stream卷積神經網路只將RGB images和stacked optical flow field分別作為時間和空間stream的輸入。為了增強網路的泛化能力,我們將在原來基礎上增加RGB difference和warped optical flow field。

    Network Training: 由於行為識別的資料集較小,因此在訓練深度卷積神經網路的時候將會面臨過擬合的問題,我們設計了幾種策略在訓練卷積神經網路來防止過擬合。(1)Cross modality Pre-training:當訓練樣本較少時,預訓練是一種較好的訓練神經網路防止過擬合的方法。(2)Regularization Techniques:BN可以用來解決covariate shift 的問題。在學習的過程中,BN會估計每個batch的均值和方差,並將這些值轉換成標準高斯分佈,這種操作將會加速訓練過程的收斂,但是在轉化的過程中會導致過擬合。因此在初始化預訓練模型以後,我們選擇freezeBN層的均值和方差(除去第一層外)。由於optical flow和RGB images的分佈不同,第一個卷積層的啟用值會有不同的分佈,我們需要進行相應的均值和方差的再評估,我們把這種方法成為區域性BN。同時,我們在BN-Inception結構中global pooling層加一個額外的dropout層來減少過擬合的影響。spatial stream卷積神經網路的dropout比例是0.8,Temporal stream 卷積神經網路的dropout比例是0.7。(3)Data Augementation:random cropping+horizontal flipping + scale jittering

4-Experiments

Models and code at https://github.com/yjxiong/temporal-segment-networks

Accuracy 和Loss曲線視覺化: