1. 程式人生 > >論文筆記之 SST: Single-Stream Temporal Action Proposals

論文筆記之 SST: Single-Stream Temporal Action Proposals

ron 我們 裁剪 只需要 lock proposal 數據 function 性能

SST: Single-Stream Temporal Action Proposals

2017-06-11 14:28:00

  本文提出一種 時間維度上的 proposal 方法,進行行為的識別。本文方法具有如下的幾個特點:

    1. 可以處理 long video sequence,只需要一次前向傳播就可以處理完畢整個video;可以處理任意長度的 video,而不需要處理重疊的時間窗口;

    2. 在 proposal generation task 上取得了頂尖的效果;

    3. SST proposals 提供了一個較強的基準,進行 temporal action localization,將該方法結合到現有的分類任務中,可以改善分類的性能。

  所提出方法的流程圖如下所示:

  技術分享

  


  Technical Approach:

  我們所要達到的目標是:在一個 long video 上產生 temporal action proposals。

  網絡的幾個重要的部分:

  1. Visual Encoder (C3D) 用於編碼 video frame,感知輸入 video ;

  2. Seq.Encoder (GRU) 的輸入是 降維後的 C3D feature,設計該模塊的目的是: accumulate evidence across time as the video sequence progresses. 為了能夠更好的產生 good proposals,該模塊應該能夠收集信息直到確定某個動作已經發生了,與此同時,扔掉不相關的背景信息。

  技術分享

  Training:

  由於行為識別本身就是一個多分類問題,所以這裏用到了 交叉熵損失函數來作為最終 loss function。

  技術分享

  而總的 loss 就是該 loss 的加和:

  技術分享

  數據集提供了裁剪好的 video,所以就是給定 gt 的監督訓練任務,完全可以用反向傳播算法進行訓練。  

  

  Reference:

  1. Paper: http://vision.stanford.edu/pdf/buch2017cvpr.pdf

  2. Github: https://github.com/ranjaykrishna/SST

  

  

論文筆記之 SST: Single-Stream Temporal Action Proposals