1. 程式人生 > >CVPR2017行為識別中的關鍵幀檢測網路AdaScan

CVPR2017行為識別中的關鍵幀檢測網路AdaScan

今天閱讀了該論文,獲得一些啟發,先對其進行記錄,以防後面會遺忘。該論文的核心思想是我要在視訊中去除一些冗餘幀,提升視訊行為的判斷力,保留有用資訊,去除無關資訊。論文的網路圖如下所示:


為何AdaptivePooling可以實現對關鍵幀的選取呢?

原因在於Adaptive Pooling的結構所在。下面將講述核心結構Adaptive Pooling。經過Deep Network獲得的Features經過Adaptive Pooling可以形成Pooled Vector。首先定義變數:

, 指的是在視訊X下,計算至t幀為止圖片得到的pooled 向量。The Adaptive Pooling模組迴圈進行Pooling是需要兩部操作。這兩個操作通過下面兩個式子表示。

其中變數預測幀影象中含有資訊的重要性。 變數即t+1幀含有資訊的重要性,即就是預測得到的變數。 表示Deep Network獲得的t+1幀的特徵。
第一個式子是獲取該幀的重要性,第二個式子就是帶有權重的Pooling。得到新的Pooled Feature,該Pooled Feature是對前t+1幀資訊的整合。 下面是原文中的英文解釋:
該方法是對時域的Feature進行Pooling,而不是限制在空域的Feature。根據幀的重要性設定權值,該幀含有的有用資訊的可能性越大,權重越高,最後的PooledFeature獲得的有用資訊更多,無用資訊更少。 是什麼函式呢?這是一個Adaptive的函式,那啥才是Adaptive的函式呢???
當然是神經網路。該函式用的神經網路很簡單,就是一個MLP,多層感知器模型。該網路是三層全連線網路組成,簡單速度快也有非線性的特性,且有自適應的特性。輸入到網路的是  當前pooled特徵和下一幀特徵的殘差,用殘差可以讓網路explicitly關注之前沒有看到的特徵,進而決定是否對它Pool。 該網路的Loss函式: 該Loss會有助於選擇區別性的幀,同時丟棄無用的幀。越大,選取的幀就越少。正則項起著重要的作用。至於這個Loss的內涵,不太理解,日後理解了會對其補充

網路通過反向傳播,會優化MLP,進而優化    ,這樣就使得在test的過程中,可以很好地選擇關鍵幀,丟掉無用幀。