CVPR2017行為識別中的關鍵幀檢測網路AdaScan

阿新 • • 發佈：2018-12-29

今天閱讀了該論文，獲得一些啟發，先對其進行記錄，以防後面會遺忘。該論文的核心思想是我要在視訊中去除一些冗餘幀，提升視訊行為的判斷力，保留有用資訊，去除無關資訊。論文的網路圖如下所示：

為何AdaptivePooling可以實現對關鍵幀的選取呢？

原因在於Adaptive Pooling的結構所在。下面將講述核心結構Adaptive Pooling。經過Deep Network獲得的Features經過Adaptive Pooling可以形成Pooled Vector。首先定義變數：

，指的是在視訊X下，計算至t幀為止圖片得到的pooled 向量。The Adaptive Pooling模組迴圈進行Pooling是需要兩部操作。這兩個操作通過下面兩個式子表示。

其中變數

預測幀影象中含有資訊的重要性。變數

即t+1幀含有資訊的重要性，即就是

預測得到的變數。

表示Deep Network獲得的t+1幀的特徵。
第一個式子是獲取該幀的重要性，第二個式子就是帶有權重的Pooling。得到新的Pooled Feature，該Pooled Feature是對前t+1幀資訊的整合。下面是原文中的英文解釋：

該方法是對時域的Feature進行Pooling,而不是限制在空域的Feature。根據幀的重要性設定權值，該幀含有的有用資訊的可能性越大，權重越高，最後的PooledFeature獲得的有用資訊更多，無用資訊更少。那

是什麼函式呢？這是一個Adaptive的函式，那啥才是Adaptive的函式呢？？？

當然是神經網路。該函式用的神經網路很簡單，就是一個MLP，多層感知器模型。該網路是三層全連線網路組成，簡單速度快也有非線性的特性，且有自適應的特性。輸入到網路的是

當前pooled特徵和下一幀特徵的殘差，用殘差可以讓網路explicitly關注之前沒有看到的特徵，進而決定是否對它Pool。該網路的Loss函式：

該Loss會有助於選擇區別性的幀，同時丟棄無用的幀。

越大，選取的幀就越少。正則項起著重要的作用。至於這個Loss的內涵，不太理解，日後理解了會對其補充

網路通過反向傳播，會優化MLP，進而優化，這樣就使得在test的過程中，可以很好地選擇關鍵幀，丟掉無用幀。