Face Detection SSH 論文理解

阿新 • • 發佈：2019-01-10

最近做人臉相關專案的時候在檢測階段用到了SSH和MTCNN兩種演算法，學習一下paper的具體內容並記錄一些重點

paper：: Single Stage Headless Face Detector
link：SSH paper
code：https://github.com/mahyarnajibi/SSH

摘要

本文提出了一個one stage人臉檢測器
- headless的解釋：在分類CNN網路的基礎上移除了fully connected layer；
- 具有尺度不變性性特徵：沒有用影象金字塔image pyramid輸入策略，只是在inference的時候用了多尺度的特徵層feature pyramid來做檢測（SSD演算法思想
  
  ）；
- 由此產生的優點：速度快、輕量級，如果用上影象金字塔策略在WIDER所有的subset上都取得很好的表現；

引言

目前存在問題：雖然目前人臉檢測的效能已經有了飛躍的提升但是在同時考慮速度和記憶體利用有效性的情況下，小人臉的檢測還存在很大的挑戰，WIDER資料集中就包含大量的小人臉；
提出一個解決方案SSH：基於去掉head的CNN分類網路，使用特徵金字塔代替影象金字塔設計出one stage人臉檢測演算法；
在各資料集上的表現：WIDER上配合影象金字塔可以在三個子集都達到最好的效能，FDDB和Pascal-Faces在相對小的輸入尺寸的情況下能夠達到最好的效能；

SSH network

SSH的設計目標：inference time少，memory foot-print低，scale-invariant特性；
SSH整體結構：
- 從上圖2中可以看出在stride為8、16、32的feature map後面加上detection module， $M_1, M_2, M_3$ ，這些模組主要由卷積層組成用以完成binary classifier和regressor；
- 關於bbox迴歸的任務，參考RPN的思路引入anchor，每個location有 $K$ 個不同scale anchor，文中提到在人臉檢測任務中anchor的長寬比固定就行，多樣的比例對檢測結果沒有明顯的影響；
- feature map size為 $W_i \times H_i$ ，總共有 $W_i \times H_i \times K_i$ 個anchor，由不同的scale組成的集合 ${S_i^1, S_i^2,\dots,S_i^{K_i}}$ ;
- detection module中還添加了一個context module用來提升感受野的影響，模型最終的輸出tensor shape為 $W_i \times H_i \times K_i \times 2$ 用來表示bbox的分類結果， $W_i \times H_i \times K_i \times 4$ 用來表示bbox的迴歸結果；
尺寸不變性設計：
- 通過在不同stride的feature map上檢測small、medium、larger人臉解決目標多尺度的問題；
- 在 $M_i$ 的檢測階段中用到了特徵融合的方法將 $conv5.3$ 的feature map使用bilinear的方法上取樣和 $conv4.3$ 的feature進行融合；
context模組：
- context module使用 $3 \times 3$ 的卷積核序列來實現 $5 \times 5$ 以及 $7 \times 7$ 的卷積核效果，通過卷積層來代替two-stage檢測方法中通過擴充proposal around window來達到上下文合併的策略(沒太明白文中提到的two-stage檢測方法中的context合併策略，可能得迴歸一下Faster-RCNN的RPN部分了)；
- detection module整體比RPN的引數量要少，context module能夠提升檢測效能；
training：
- 針對不同的檢測模組使用不同scale的人臉進行訓練，只要人臉的scale沒有在當前模組的規定scale範圍內則不會回傳loss，anchor和GT iou大於0.5則被當做true positive；
- Loss function： $\sum_{k} \frac{1}{N_k^c}\sum_{i\in A_k} l_{c}(p_i, g_i)+\lambda\sum_{k} \frac{1}{N_k^r}\sum_{i\in A_k} \tau(g_i=1)l_{r}(b_i, t_i)$ ：
  - $l_c$ 代表分類loss採用logistic loss， $A_k$ 表示 $M_k$ 檢測階段所有的anchor， $i$ 表示和GT iou大於0.5具有positive label的bbox和iou小於0.3具有negtive label的bbox， $N_k^c$ 表示參與分類運算的anchor數量；
  - $l_r$ 代表迴歸loss採用smooth L1 loss，和大多數檢測一樣需要將anchor和GT在log空間進行編碼， $\tau$ 表示只有positive anchor才能參與迴歸loss的計算；
OHEM線上困難樣本挖掘：
- OHEM在SSH中被獨立地應用於每一個檢測模組 $M_k$ ，在每一個檢測模組中選擇置信度最高的負樣本和置信度最低的正樣本按照3：1的比例進行批量訓練(和SSD裡面OHEM用法有所區別，SSD只有困難負樣本挖掘，且OHEM是針對分類任務的概念/font>)

實驗結果

anchor生成階段對應的尺寸是 $M_1\in(1,2), M_2\in(4,8), M_3\in(16,32)$

Face Detection SSH 論文理解

最近做人臉相關專案的時候在檢測階段用到了SSH和MTCNN兩種演算法，學習一下paper的具體內容並記錄一些重點 paper：: Single Stage Headless Face Detector link：SSH paper code：https://github

Face Detection PCN 論文理解

paper：: Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks（基於漸進校準網路的實時旋轉不變人臉檢測） link：PCN paper code：https://githu

Face Detection DSFD 論文理解

paper：DSFD: Dual Shot Face Detector link：DSFD paper code：to add when publication 摘要人臉檢測任務目前存在的問題：尺度、姿勢、遮擋、表情、外觀、照明等具有高度可變性；論文創新點：

Face papers: SSH人臉檢測演算法論文理解

本文的人臉檢測演算法走的是又快又好的路子，類似於目標檢測中的 SSD演算法思路。 SSH is designed to decrease inference time, have a low memory foot-print, and be scale-invariant，

論文筆記--PCN:Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks

.com 角度 ati 分享圖片直接算法二級使用計算測試demo：https://github.com/Jack-CV/PCN 關鍵詞：rotation-invariant face detection， rotation-in-plane， coarse-t

[論文理解] Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features

Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features 簡介文章是2001年發表的，是一篇很經典的Object Detection的文章，而文章的亮點就在於使用了”Integral Image“計算Haar-like特徵，從而加

[論文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括這是一篇2016年的目標檢測的文章，也是一篇比較經典的目標檢測的文章。作者介紹到，現在表現最好的方法非常的複雜，而本文的方法，簡單又容

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks 論文閱讀

一、概述本文提出了一個多工的人臉檢測模型，可以同時進行人臉檢測和人臉特徵點提取。這個框架主要由三個CNN級聯的方式實現。 stage1：通過一個淺的CNN來產生一些候選框 stage2：通過一個較複雜的CNN，對候選框進一步刪選得到更精細的區域 stage3：通過一個強大

經典計算機視覺論文筆記——《Robust Real-Time Face Detection》

第一次讀這篇傳奇之作大概是九年前了，也就是2007年，而那時距論文正式發表（2004年）也已經有四年之久了。現在讀來，一些想法，在深度學習大行其道的今天仍然具有借鑑意義，讓人敬佩不已。 VJ人臉檢測器應該是歷史上第一個成功商業應用的實時人臉檢

【論文理解】ArcFace: Additive Angular Margin Loss for Deep Face Recognition（InsightFace）

這篇論文基本介紹了近期較為流行的人臉識別模型，loss變化從softmax一路捋到CosFace，然後提出ArcFace，可以說起到很好的綜述作用。論文評價對比方面也做了非常詳細的對比策略方案分析。資料清洗工作也對後續研究應用有較大意義。資料和程式碼都開源，相當良心。本文主要

Relation Networks for Object Detection 論文理解

paper：Relation Networks for Object Detection link：Relation Networks for Object Detection paper code：https://github.com/msracver/Relation-Network

《Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks》論文閱讀

《使用PCN網路的實時旋轉不變人臉檢測》論文閱讀摘要對於人臉的任意角（RIP）檢測在應用中有著廣泛的需求，但該項任務仍然十分具備挑戰性。在處理大量的角度變化問題上，現有的處理辦法都在檢測速度和精確度上做出了妥協。為了更好地提高檢測效率，作者提出了一個PCN網路來對RIP人臉檢測從一個由粗

行人檢測論文筆記：Robust Real-Time Face Detection

知識點傅立葉變換的一個推論：一個時域下的複雜訊號函式可以分解成多個簡單訊號函式的和，然後對各個子訊號函式做傅立葉變換並再次求和，就求出了原訊號的傅立葉變換。卷積定理(Convolution Theorem)：訊號f和訊號g的卷積的傅立葉變換

人臉識別：Sphere face論文理解2017

2017的一篇cvpr，SphereFace: Deep Hypersphere Embedding for Face Recognition，繼centerloss之後又一大作。文章主要提出了歸一化權值（normalize weights and zero biases）和

Android Studio 導入OpenCV 並調試運行face-detection例子

pac oot tools property boolean adl cond dto rgb p { margin-bottom: 0.1in; direction: ltr; color: rgb(0, 0, 10); line-height: 120%; text-a

[CVPR 2016] Weakly Supervised Deep Detection Networks論文筆記

del found score feature 圖片 http spl span 根據 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 } p.p2

An Analysis of Scale Invariance in Object Detection – SNIP 論文解讀

記錄測試的 one zhang 不可策略 correct 抽象 alt 前言本來想按照慣例來一個overview的，結果看到一篇十分不錯而且詳細的介紹，因此copy過來，自己在前面大體總結一下論文，細節不做贅述，引用文章講得很詳細。論文概述引用文章以下內容來自：

《A Discriminative Feature Learning Approach for Deep Face Recognition》論文筆記

1. 論文思想在這篇文章中尉人臉識別提出了一種損失函式，叫做center loss，在網路中加入該損失函式之後可以使得網路學習每類特徵的中心，懲罰每類的特徵與中心之間的距離。並且該損失函式是可訓練的，並且在CNN中容易優化。那麼，將center loss與softmax相結合會增加

《You Only Look Once: Unified, Real-Time Object Detection》論文筆記

1. 論文思想 YOLO（YOLO-v1）是最近幾年提出的目標檢測模型，它不同於傳統的目標檢測模型，將檢測問題轉換到一個迴歸問題，以空間分隔的邊界框和相關的類概率進行目標檢測。在一次前向運算中，一個單一的神經網路直接從完整的影象中預測邊界框和類概率。由於整個檢測管道是一個單一的網路，

《AppIntent - Analyzing Sensitive Data Transmission in Android for Privacy Leakage Detection》論文閱讀筆記

AppIntent: Analyzing Sensitive Data Transmission in Android for Privacy Leakage Detection APPIntent:分析敏感資料傳播在Android裝置中隱私洩露的檢測文獻引

Face Detection SSH 論文理解

摘要

引言

相關工作

SSH network

實驗結果

相關推薦