Face Detection DSFD 論文理解

paper：DSFD: Dual Shot Face Detector
link：DSFD paper
code：to add when publication

摘要

人臉檢測任務目前存在的問題：尺度、姿勢、遮擋、表情、外觀、照明等具有高度可變性；
論文創新點：
- 繼承SSD的檢測框架，引入feature enhance module，用於傳輸原始特徵圖來將單發檢測器擴充套件到雙射檢測器；
- 採用通過兩組anchor計算的progressive anchor loss(PAL)來有效促進特徵；
- 通過在DSFD中整合創新的資料增強技術和錨設計策略來提出一種改進的錨點匹配方法(IAM)，為了能給迴歸器提供更好地初始化；
在popular benchmark上的實驗：WIDER FACE（easy：0.966， medium：0.957， hard：0.904）；FDDB（discontinues：0.991， continues：0.862）

Dateset

FDDB（FaceDetection Data Set and Benchmark）由美國馬薩諸塞大學（UMass）於2010年建立，該資料集包含2845張影象，5171個人臉。其中包含大量遮擋、複雜的姿態以及低解析度的人臉。結果公佈分為公開方法（publishedmethods）和非公開方法（unpublished methods）兩個榜單。優圖此次參與的是公開方法（公佈論文）的評測。FDDB是早期評估各類人臉檢測演算法最重要的資料集之一；

WIDER FACE由香港中文大學於2016年建立，該資料集包含32203張影象，393703個人臉，其中大量受到光照、遮擋、化妝、表情變化、小臉等因素影響。這些資料中40%為訓練集（Training）、10%為驗證集（Validation）、50%為測試集（Testing）。WIDERFACE一經提出，便引起了廣泛關注，成為近幾年來人臉檢測領域最權威的資料集之一；

引言

目前表現最好的人臉檢測器可分為兩類：基於應用於Faster-RCNN的RPN採用兩階段檢測策略，RPN生成高質量region proposal，然後由Fast-RCNN檢測器進一步確認；基於單鏡頭檢測器SSD的一階段檢測方法，脫離RPN的思想直接預測bbox和confidence；

儘管人臉檢測器取得了不錯的進展，但是還存在三個方面的問題：
- 特徵學習：目前FPN被廣泛應用在人臉檢測器中為了獲取更豐富的特徵，但是FPN只聚合高層和底層輸出層之間的特徵圖，沒有關注當前層的特徵資訊，同時忽略了anchor之間的上下文資訊；
- 損失函式設計：目標檢測的常規損失函式包括迴歸損失函式和用於識別的分類損失函式，focal loss的提出能夠進一步解決類別不平衡問題，分層loss能夠利用所有的原始增強特徵；但是這些損失函式沒有考慮不同級別特徵圖的漸進學習能力；
- 錨點匹配：基本策略是有規律地使用具有不同比例和橫縱比的bbox的集合來生成每一個特徵圖的預設錨點，現有工作分析了一系列合理的錨點尺度和錨點補償策略，用以增加正例錨點的數量；但是這種方式忽略了資料增強中的隨機取樣，連續的面部尺寸和大量離散的錨點尺度仍然使得正負錨點之間的比率差異很大；
為了解決上述上個問題，文中提出基於SSD pipeline的雙射人臉檢測器：
- 結合PyramidBox中的low-level FPN和RFBNet中的Receptive Feild Block提出一種新穎的特徵增強模組，可利用不同層級的特徵資訊，從而獲得更多的有辨識度和魯棒性的特徵；
- 在PyramidBox的層次loss和pyramid anchor思想的推動下提出了漸進錨點損失PAL，通過使用一組較小的錨來計算輔助監督損失，有效促進特徵，較小的錨拓展在高層特徵圖上時候能具有更多用於分類的語義資訊和用於檢測的高解析度資訊；
- 提出一種改進的錨點匹配策略，在DSFD中集成了錨點分割槽策略和基於錨點的資料增強技術，儘可能匹配錨點和ground truth face，為迴歸器提供更好地初始化；
- 在流行的benchmark上進行綜合實驗，FDDB和WIDER FACE，以此證明我們提出的DSFD網路的優越性；
下圖檢測效果顯示較小的anchor應用和改進的anchor匹配策略能夠消除尺度和遮擋帶來的檢測障礙：

Dual Shot Face Detector

DSFD Pipeline

DSFD使用拓展的VGG16backbone，在分類層之前新增輔助結構；使用conv3_3、conv4_3、conv5_3、conv_fc7、conv6_2、conv7_2作為第一個鏡頭的檢測層，生成作為原始特徵圖的of1，of2，of3，of4，of5，of6，使用FEM將原始特徵圖轉換為六個增強的特徵圖：ef1，ef2，ef3，ef4，ef5，ef6,以此構建成第二個鏡頭的檢測層；
設計上和S3FD以及PyramidBox不同，在FEM中利用了感受野增廣以及新的anchor設計策略後，沒有必要設計三種尺度的stride、anchor和receptive field去滿足等比例間隔原則；
原始鏡頭和增強鏡頭使用的loss function不同，分別為FSL、SSL；

FEM：Feature Enhance Module

FEM的提出是為了讓原始特徵圖更具辨識度和魯棒性，針對當前anchor $a(i,j,l)$ ，FEM利用不同維度資訊包括：當前層anchor $a(i-1,j-1,l),a(i-1,j,l),\cdots,a(i,j+1,l),a(i+1,j+1,l)$ 以及上一層anchor $a(i,j,l+1)$ ；與anchor相關聯的特徵圖單元可以用公式(1)表示：

疑問：第一個公式等號左邊應該是 $a(i,j,l)$ ,其中 $C_i,j,l$ 表示第 $l$ 層特徵圖的座標為 $(i,j)$ 的單元， $f$ 表示擴張卷積、逐元素乘積、上取樣操作的結合； $\gamma$ 和 $\delta$ 分別表示當前層資訊和上層資訊；FEM中先使用 $1*1$ 卷積歸一化輸入的特徵圖，然後對up layer的輸入進行上取樣和當前layer輸入執行元素乘積，最後將N個FM分成三份分別作為包含不同擴張卷積層數的子網路中，最後concat操作合併子網結果，得到增強特徵圖；

Face Detection DSFD 論文理解

摘要

Dateset

引言

相關研究內容

Dual Shot Face Detector

DSFD Pipeline

FEM：Feature Enhance Module

PAL：Progressive Anchor Loss

Face Detection DSFD 論文理解

Face Detection SSH 論文理解

Face Detection PCN 論文理解

face detection[DSFD]

論文筆記--PCN:Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks

[論文理解] Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features

[論文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks 論文閱讀

經典計算機視覺論文筆記——《Robust Real-Time Face Detection》

【論文理解】ArcFace: Additive Angular Margin Loss for Deep Face Recognition（InsightFace）

Relation Networks for Object Detection 論文理解

《Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks》論文閱讀

行人檢測論文筆記：Robust Real-Time Face Detection

人臉識別：Sphere face論文理解2017

Face papers: SSH人臉檢測演算法論文理解

Android Studio 導入OpenCV 並調試運行face-detection例子

[CVPR 2016] Weakly Supervised Deep Detection Networks論文筆記

An Analysis of Scale Invariance in Object Detection – SNIP 論文解讀

《A Discriminative Feature Learning Approach for Deep Face Recognition》論文筆記

《You Only Look Once: Unified, Real-Time Object Detection》論文筆記