Face parsing論文記錄(個人)

阿新 • • 發佈：2019-01-14

Face parsing Paper Record

Under construction！

Deep Learning Methods

Face Parsing

Hierarchical face parsing via deep learning

[Paper] Hierarchical face parsing via deep learning

[Year] CVPR 2012

[Author] Ping Luo, Xiaogang Wang, Xiaoou Tang

[Pages]

[Description]

MO-GC ★

[Paper] Multi-Objective Convolutional Learning for Face Labeling

[Year] CVPR 2015

[Author] Sifei Liu, Jimei Yang, Chang Huang, Ming-Hsuan Yang

[Pages] https://www.sifeiliu.net/face-parsing

[Description]

1) 模擬CRF, 提出一種用多個目標函式優化一個CNN的人臉解析方法. 一個loss針對unary label likehood, 一個loss針對pairwise label dependency;
2) 提出一種nonparametric prior作為global regularization. 首先在臉部key point真值影象塊上基於PCA建立一形狀子空間, 測試時搜尋與測試影象最相似的若干真值影象, 根據key point將真值影象與測試影象align，將幾張aligned後的mask取平均作為prior;
3) 在LFW和Helen上實驗, 多目標函式的策略對精度有微小提升, nonparametric prior效果提升明顯：

Guided by Detected ★★

[Paper] A CNN Cascade for Landmark Guided Semantic Part Segmentation

[Year] ECCV 2016

[Author] Aaron S. Jackson, Michel Valstar, Georgios Tzimiropoulos

[Pages] http://aaronsplace.co.uk/papers/jackson2016guided/index.html

[Description]

1) 提出一種用landmarks引導part segmentation的方法, 用pose-specific資訊輔助分割, 分為landmark檢測和分割兩步;
2) landmark detection: 先用一個FCN預測68個高斯狀的landmarks(68個輸出channel,每個channel對應1個2D Gaussian)
3) segmentation: 將detection得到的68個channel加到輸入影象上, 再用1個FCN完成分割. 這個的一個key aspect是驗證集上的landmark localization error加到landmark真值上去生成2D Gaussian (沒看懂他的理由???)
4) 實驗部分用IoU評價, 但是沒與其它方法對比, 說服力略顯不足; 資料是自行從landmark資料集中生成的分割圖.

CnnRnnGan ★

[Paper] End-to-end semantic face segmentation with conditional random fields as convolutional, recurrent and adversarial networks

[Year] arXiv 1703

[Author] Umut Güçlü, Yagmur Güçlütürk, Meysam Madadi, Sergio Escalera, Xavier Baró, Jordi González, Rob van Lier, Marcel van Gerven

[Pages] https://github.com/umuguc (還沒開源)

[Description]

1) 大致瀏覽. 本文提出了一個大雜燴, 將dilation, CRFasRNN, adversarial training整合到一end to end的框架中. 不過, 首先要檢測landmark, 將landmark連線生成初始分割圖, 再用landmark將輸入影象和分割圖與模板對齊.

2) 效果較好, 但暫時未開源.

3) 有一個問題沒細看: 在Helen上實驗時, 是分別訓練了5個網路解析不同類別嗎??

RNN-G ★☆

[Paper] Parsing via Recurrent Propagation

[Year] BMVC 2017

[Author] Sifei Liu, Jianping Shi, Ji Liang, Ming-Hsuan Yang

[Pages]

[Description]

1) 提出一種coarse to fine的人臉解析方法, 第一階段解析出面板, 頭髮和背景, 第二部解析facial components. CNN和RNN引數都較少, 因此速度很快.

2) 第一階段將CNN的hierarchical representation和RNN的label propagation結合起來. CNN有兩個輸出, 一個是feature map, 另一個是edge map. RNN考慮上下左右四個方向, 以feature map為輸入, 並用edge map作為gate, 即邊緣處兩個node的聯絡應該小, 相同類別區域兩個node聯絡應該大.

3) 第二個階段設計了eye/eyebrow, nose和mouth三個子網路, 根據landmark將五官crop成patch, 送入相應的網路進行解析.

4) 本文也需要額外的landmark檢測, 檢測出的landmard用於將臉轉正和crop五官.

FC-CNN ★☆

[Paper] Face Parsing via a Fully-Convolutional Continuous CRF Neural Network

[Year] arXiv 1708

[Author] Lei Zhou, Zhi Liu, Xiangjian He

[Pages]

[Description]

1) 將CRF與CNN結合起來, CRF的思路應該是來源於MO-GC, 模型包括unary, pairwise和continuous CRF(C-CRF)三個子網路; 網路基於Caffe, 可以端到端訓練. 未開源,效能較好.

2) Unary net採用類似SegNet的結構. pairwise net將相鄰畫素的feature連線起來並用1*2和2*1的卷積得到其水平和垂直方向的相似的, 最後得到相似度矩陣.

3) C-CRF網路首先用superpixel pooling layer將unary和pairwise網路的pixel-level feaature轉化為region-level feature. 目的是保留邊界資訊和保證同區域標註的一致性(?). 再使用unary和pairwise的超畫素特徵構成目標能量函式.

4) 介紹了一種端到端訓練C-CRF的方法, 沒細看.

3) 貌似應該需要額外的方法得到超畫素.

Adaptive Receptive Fields ★

[Paper] Learning Adaptive Receptive Fields for Deep Image Parsing Network

[Year] CVPR 2017

[Author] Zhen Wei, Yao Sun, Jinqiao Wang, Hanjiang Lai, Si Liu

[Pages]

[Description]

1) 提出學習一個引數f, 對feature map進行縮放, 從而自適應地改變感受野大小.

2) 設計一個multi-path模型, 為打破各支路的均衡性, 使用了loss guidance, 即對某一支加大某些類的權重, 如把類別分為{eye, eyebrow}和{nose, lip, mouth}兩組, 用起分別對不同支路加權. 這樣能引導各個分支學習到適合分割特定目標的感受野.

3) loss guidance的思路可以借鑑, 但從結果來看多個支路的精度反而不如單支路的…

4) 在一個數據集學到的引數f, 應該是隻適應於當前任務, 感覺不太適用於模型遷移?

Face Detection

MTCNN ★★

[Paper] Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks

[Year] SPL 2016

[Author] Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, Yu Qiao

[Pages] https://kpzhang93.github.io/MTCNN_face_detection_alignment/

[Description]

1) 以3個CNN級聯的方式，完成coarse到fine的人臉檢測和對齊;
2) 三個網路分別為Prposal(P)-Net, Refine(R)-Net和Output(O)-Net, 三個網路都是結構相似的小型CNN，總體速度較快;
3) 網路的訓練包括三個task: 人臉分類(是否是人臉的二分類問題), bounding box迴歸, landmark定位. 三個任務是分別取樣本和訓練的;
4) 提出online hard sampling mining, 在一個mini-batch中對每個sample的loss排序, 只取loss由大到小前70%的sample參與back propagation

SSH ★★

[Paper] WIDER FACE: A Face Detection Benchmark

[Year] ICCV 2017

[Author] Mahyar Najibi, Pouya Samangouei, Rama Chellappa, Larry S. Davis

[Pages] https://github.com/mahyarnajibi/SSH

[Description]

1) Single stage, no head of classification network

2) Scale-invariant by design, detect faces from various depths

Face parsing論文記錄(個人)

Face parsing Paper Record

Under construction！

Table of Contents

Deep Learning Methods

Face Parsing

Hierarchical face parsing via deep learning

MO-GC ★

Guided by Detected ★★

CnnRnnGan ★

RNN-G ★☆

FC-CNN ★☆

Adaptive Receptive Fields ★

Face Detection

MTCNN ★★

SSH ★★

Landmark Detection

CNN_FacePoint

TCDCN

Classical Methods

Exemplar-Based ★

Datasets

Segments

Others

Librarys

Resources-Lists

相關推薦