Is Faster R-CNN Doing Well for Pedestrian Detection?論文閱讀
原文連結:http://arxiv.org/pdf/1607.07032v2.pdf
原始碼連結:https://github.com/zhangliliang/RPN_BF/tree/RPN-pedestrian
簡介:行人檢測是個特定課題,而不是一般的物體檢測。雖然最近流行的深度物體檢測方法 如: Fast/Faster RCNN 在一般的物體檢測中,取得了比較理想的結果,但是在行人檢測方面卻不太成功。論文研究了 Faster RCNN 在行人檢測中存在的問題,發現 RPN 在單獨的行人檢測器中表現良好,但是隨後的分類器卻降低了效能。論文作者猜想可能是如下兩個原因導致的:
1)行人在影象中的尺寸較小。對於小物體,RoI池化層在低解析度特徵圖(其實就是最後共享的特徵圖)中提出的特徵沒有什麼區分能力(太小以至於特徵消失)。針對該情況,論文在更大尺寸的淺層特徵上提取特徵,以此提高提出特徵的區分能力。
2)行人檢測中的FP(假陽性)主要是背景的干擾,而一般物體檢測主要受多種類影響。對此論文使用了 cascaded Boosted Forest 直接訓練 RPN 提出的深度卷積特徵。
實現方法:論文的方法主要包含兩部分:一是用於生成候選框及卷積特徵對映的RPN;二是使用這些卷積特徵對候選框進行分類的Boosted Forest。具體實現如下:
1)行人檢測的RPN網路採用單橫縱比0.41(行人平均寬高比),從40畫素高度開始步長為1.3× 的9個尺度的錨。
2)從RoI提取的固定長度的特徵輸入到BF分類器,不對維數做任何限制。在特徵提取階段還使用àtrous技巧來計算解析度更高的卷積特徵對映。
3)BF採用AdaBoost演算法。其中RPN看作stage-0的分類器f_0,採用RealBoost設定f_0, f_0=0.5×log(s/(1-s)),其中s是提議區域的分數。
實現結果
由於我所需僅為KITTI資料集下的結果,所以這裡只放了KITTI的結果。
從上表可以看出論文提出的方法對於提升行人檢測的效能還是很有效的。
參考:https://blog.csdn.net/cv_family_z/article/details/52397122