CVPR2017行為識別中的關鍵幀檢測網路AdaScan
阿新 • • 發佈:2018-12-29
今天閱讀了該論文,獲得一些啟發,先對其進行記錄,以防後面會遺忘。該論文的核心思想是我要在視訊中去除一些冗餘幀,提升視訊行為的判斷力,保留有用資訊,去除無關資訊。論文的網路圖如下所示:
為何AdaptivePooling可以實現對關鍵幀的選取呢?
原因在於Adaptive Pooling的結構所在。下面將講述核心結構Adaptive Pooling。經過Deep Network獲得的Features經過Adaptive Pooling可以形成Pooled Vector。首先定義變數:
, 指的是在視訊X下,計算至t幀為止圖片得到的pooled 向量。The Adaptive Pooling模組迴圈進行Pooling是需要兩部操作。這兩個操作通過下面兩個式子表示。其中變數預測幀影象中含有資訊的重要性。 變數即t+1幀含有資訊的重要性,即就是預測得到的變數。 表示Deep Network獲得的t+1幀的特徵。
第一個式子是獲取該幀的重要性,第二個式子就是帶有權重的Pooling。得到新的Pooled Feature,該Pooled Feature是對前t+1幀資訊的整合。 下面是原文中的英文解釋:
該方法是對時域的Feature進行Pooling,而不是限制在空域的Feature。根據幀的重要性設定權值,該幀含有的有用資訊的可能性越大,權重越高,最後的PooledFeature獲得的有用資訊更多,無用資訊更少。 那是什麼函式呢?這是一個Adaptive的函式,那啥才是Adaptive的函式呢???
網路通過反向傳播,會優化MLP,進而優化 ,這樣就使得在test的過程中,可以很好地選擇關鍵幀,丟掉無用幀。