1. 程式人生 > >Face parsing論文記錄(個人)

Face parsing論文記錄(個人)

Face parsing Paper Record

Under construction!

Table of Contents

Deep Learning Methods

Face Parsing

Hierarchical face parsing via deep learning

[Paper] Hierarchical face parsing via deep learning

[Year] CVPR 2012

[Author] Ping Luo, Xiaogang Wang, Xiaoou Tang

[Pages]

[Description]


MO-GC ★

[Paper] Multi-Objective Convolutional Learning for Face Labeling

[Year] CVPR 2015

[Author] Sifei Liu, Jimei Yang, Chang Huang, Ming-Hsuan Yang

[Pages] https://www.sifeiliu.net/face-parsing

[Description]

1) 模擬CRF, 提出一種用多個目標函式優化一個CNN的人臉解析方法. 一個loss針對unary label likehood, 一個loss針對pairwise label dependency;
2) 提出一種nonparametric prior作為global regularization. 首先在臉部key point真值影象塊上基於PCA建立一形狀子空間, 測試時搜尋與測試影象最相似的若干真值影象, 根據key point將真值影象與測試影象align,將幾張aligned後的mask取平均作為prior;
3) 在LFW和Helen上實驗, 多目標函式的策略對精度有微小提升, nonparametric prior效果提升明顯:

Guided by Detected ★★

[Paper] A CNN Cascade for Landmark Guided Semantic Part Segmentation

[Year] ECCV 2016

[Author] Aaron S. Jackson, Michel Valstar, Georgios Tzimiropoulos

[Pages] http://aaronsplace.co.uk/papers/jackson2016guided/index.html

[Description]

1) 提出一種用landmarks引導part segmentation的方法, 用pose-specific資訊輔助分割, 分為landmark檢測和分割兩步;
2) landmark detection: 先用一個FCN預測68個高斯狀的landmarks(68個輸出channel,每個channel對應1個2D Gaussian)
3) segmentation: 將detection得到的68個channel加到輸入影象上, 再用1個FCN完成分割. 這個的一個key aspect是驗證集上的landmark localization error加到landmark真值上去生成2D Gaussian (沒看懂他的理由???)
4) 實驗部分用IoU評價, 但是沒與其它方法對比, 說服力略顯不足; 資料是自行從landmark資料集中生成的分割圖.

CnnRnnGan ★

[Paper] End-to-end semantic face segmentation with conditional random fields as convolutional, recurrent and adversarial networks

[Year] arXiv 1703

[Author] Umut Güçlü, Yagmur Güçlütürk, Meysam Madadi, Sergio Escalera, Xavier Baró, Jordi González, Rob van Lier, Marcel van Gerven

[Pages] https://github.com/umuguc (還沒開源)

[Description]

1) 大致瀏覽. 本文提出了一個大雜燴, 將dilation, CRFasRNN, adversarial training整合到一end to end的框架中. 不過, 首先要檢測landmark, 將landmark連線生成初始分割圖, 再用landmark將輸入影象和分割圖與模板對齊.

2) 效果較好, 但暫時未開源.

3) 有一個問題沒細看: 在Helen上實驗時, 是分別訓練了5個網路解析不同類別嗎??

RNN-G ★☆

[Paper] Parsing via Recurrent Propagation

[Year] BMVC 2017

[Author] Sifei Liu, Jianping Shi, Ji Liang, Ming-Hsuan Yang

[Pages]

[Description]

1) 提出一種coarse to fine的人臉解析方法, 第一階段解析出面板, 頭髮和背景, 第二部解析facial components. CNN和RNN引數都較少, 因此速度很快.

2) 第一階段將CNN的hierarchical representation和RNN的label propagation結合起來. CNN有兩個輸出, 一個是feature map, 另一個是edge map. RNN考慮上下左右四個方向, 以feature map為輸入, 並用edge map作為gate, 即邊緣處兩個node的聯絡應該小, 相同類別區域兩個node聯絡應該大.

3) 第二個階段設計了eye/eyebrow, nose和mouth三個子網路, 根據landmark將五官crop成patch, 送入相應的網路進行解析.

4) 本文也需要額外的landmark檢測, 檢測出的landmard用於將臉轉正和crop五官.

FC-CNN ★☆

[Paper] Face Parsing via a Fully-Convolutional Continuous CRF Neural Network

[Year] arXiv 1708

[Author] Lei Zhou, Zhi Liu, Xiangjian He

[Pages]

[Description]

1) 將CRF與CNN結合起來, CRF的思路應該是來源於MO-GC, 模型包括unary, pairwise和continuous CRF(C-CRF)三個子網路; 網路基於Caffe, 可以端到端訓練. 未開源,效能較好.

2) Unary net採用類似SegNet的結構. pairwise net將相鄰畫素的feature連線起來並用1*2和2*1的卷積得到其水平和垂直方向的相似的, 最後得到相似度矩陣.

3) C-CRF網路首先用superpixel pooling layer將unary和pairwise網路的pixel-level feaature轉化為region-level feature. 目的是保留邊界資訊和保證同區域標註的一致性(?). 再使用unary和pairwise的超畫素特徵構成目標能量函式.

4) 介紹了一種端到端訓練C-CRF的方法, 沒細看.

3) 貌似應該需要額外的方法得到超畫素.

Adaptive Receptive Fields

[Paper] Learning Adaptive Receptive Fields for Deep Image Parsing Network

[Year] CVPR 2017

[Author]   Zhen Wei, Yao Sun, Jinqiao Wang, Hanjiang Lai, Si Liu

[Pages]

[Description]

1) 提出學習一個引數f, 對feature map進行縮放, 從而自適應地改變感受野大小.

2) 設計一個multi-path模型, 為打破各支路的均衡性, 使用了loss guidance, 即對某一支加大某些類的權重, 如把類別分為{eye, eyebrow}和{nose, lip, mouth}兩組, 用起分別對不同支路加權. 這樣能引導各個分支學習到適合分割特定目標的感受野.

3) loss guidance的思路可以借鑑, 但從結果來看多個支路的精度反而不如單支路的…

4) 在一個數據集學到的引數f, 應該是隻適應於當前任務, 感覺不太適用於模型遷移?

Face Detection

MTCNN ★★

[Paper] Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks

[Year] SPL 2016

[Author] Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, Yu Qiao

[Pages] https://kpzhang93.github.io/MTCNN_face_detection_alignment/

[Description]

1) 以3個CNN級聯的方式,完成coarse到fine的人臉檢測和對齊;
2) 三個網路分別為Prposal(P)-Net, Refine(R)-Net和Output(O)-Net, 三個網路都是結構相似的小型CNN,總體速度較快;
3) 網路的訓練包括三個task: 人臉分類(是否是人臉的二分類問題), bounding box迴歸, landmark定位. 三個任務是分別取樣本和訓練的;
4) 提出online hard sampling mining, 在一個mini-batch中對每個sample的loss排序, 只取loss由大到小前70%的sample參與back propagation

SSH ★★

[Paper] WIDER FACE: A Face Detection Benchmark

[Year] ICCV 2017

[Author] Mahyar Najibi, Pouya Samangouei, Rama Chellappa, Larry S. Davis

[Pages] https://github.com/mahyarnajibi/SSH

[Description]

1) Single stage, no head of classification network

2) Scale-invariant by design, detect faces from various depths

Landmark Detection

CNN_FacePoint

TCDCN

Classical Methods

Exemplar-Based

Datasets

Segments

Others

Librarys

Resources-Lists

相關推薦

Face parsing論文記錄(個人)

Face parsing Paper Record Under construction! Table of Contents Deep Learning Methods Face Parsing Hierarchical fa

Low Level Image Processing論文記錄(個人)

Low Level Reconfiguring the Imaging Pipeline ★★ [Paper] Reconfiguring the Imaging Pipeline for Comp

face parsing

pro bsp ref blank codes hub ace targe get 主頁:https://www.sifeiliu.net/project 基於CNN face parsing: https://www.sifeiliu.net/face-parsing c

【夢藍櫻飛(一點一滴, 記錄個人成長之路)】時光荏苒,祝願勿忘曾經的初心 && 活在當下,一定做好現在的事情

個人很喜歡的一句話, (摘自網路): 時光荏苒,祝願不要忘記曾經的初心 本人現在是一名大二軟體工程專業的學生, 每月會堅持更新, 本部落格會總結, 整理, 分享個人學習的相關技術知識, 用來記錄自己不斷進步的歷程, 當然內容會以Java為主線. 雖然是技術部落格,

富途入金步驟記錄(個人使用)

存入資金-大陸其他銀行 - 大陸銀行存入資金 溫馨提示: 一、投資港股存入港幣,投資美股存入美元 二、匯款使用的銀行賬戶名必須與富途證券賬戶名同名,不可使用他人銀行賬戶匯款,否則產生的退款費用由客戶負責 三、銀行間後臺處理匯款申請需要一定時間,銀行通知“已匯出

論文記錄_MobileNets Efficient Convolutional Neural Networks for Mobile Vision Application

2.1 標準卷積 標準的卷積層是將維度為DF×DF×MDF×DF×M的輸入層轉化為維度為DG×DG×NDG×DG×N [ 上篇論文中也有提到]  DFDF 是輸入feature map的長和寬,M 是輸入的通道數(channels) DGDG 是輸出feature ma

微信公眾號教程—記錄個人公眾號運營(待更新)

1.首先需要解釋下什麼是微信公眾號? 微信公眾號分為:[訂閱號] 和 [服務號] 訂閱號和服務號的具體區別轉至微信公眾號公眾平臺服務號、訂閱號、企業號的相關說明 申請只是第一步,如果說申請成功了,還需要了解公眾號後臺的使用,這裡是我在網上找到的一個

linux 命令記錄 -- 個人

1. 建立檔案 #dd if=/dev/zero of=hello.txt bs=10M count=1      if:input file      of:output file      bs:bytes      dd:disk dump 磁碟轉儲      /de

XGBoost 論文翻譯+個人註釋

最近研究機器學習理論,學習了一下陳天奇博士的論文,做了一點簡單的翻譯和批註,在這裡記錄一下。 本文將按照論文的順序來介紹xgb,其中穿插我自己的理解和我對於論文原文的中文翻譯,以及一些公式的截圖。原文翻譯將使用紅色來標註,其餘的皆為我自己理解的內容,涉及引數調整的我會加粗。

讀研期間小論文投稿-個人總結

我是2014級研究生,學校只是一個普通211,而且工科很弱,導師對我是放養,讓我回憶下,上學期就見過她一次,而且她快退休了,沒專案沒經費沒權利,但我覺得跟著她還挺好,因為我可以自己研究自己喜歡的,沒人妨礙。但同時導師沒有基金,所以我的小論文都沒有基金可掛。我本身的研究方向

使用yeoman起一個新項目(個人練習記錄,勿噴!)

文件 新建 data- 操作 app .json 名稱 data -s 1.首先安裝yeoman:npm install -g yo2.yeoman需要generator來進行操作所以需要安裝generator模塊:npm install -g generator-weba

《ACM-ICPC程序設計系列 數論及其應用》課後習題個人答案記錄

%0 show ++ cpc problem 要求 sca c程序 .cn 例1.1:HDU2099(2017/9/4) 本題書上給的答案是從0到99枚舉,顯然可以優化到每次遞增b,這樣至少可以把枚舉次數減少到1/10。 1 #include<cstdio>

vm12pro 安裝winxp過程 記錄1(涵個人問題)

amp so文件 com htm baidu bsp blog 過程 iso 1.百度的xp資源 選好iso文件後出現如下情景: 2.百度以後是要在一開始的首次界面就選擇從哪個盤開始 3.選擇了“Windowgs PE”選項…加載出界面後選擇了ghost xp…現在…黑屏

個人爬蟲入門記錄20171026

python 爬蟲 文本處理 網易NBA對每個隊都有一個對應的編號,每個編號對應一個數據頁面。想要進入馬刺的數據頁面,首先要知道馬刺的編號。編號與球隊名字的對應關系可以從總體的NBA統計頁面源代碼中看到。所以,我的思路是: 1.獲得NBA統計頁面的源代碼; 2.將源代碼轉換成

個人博客設計記錄

name 設置 blog 成功 圖片 響應 使用 失效 mod 一、使用的中間件 1. koa 2. koa-static 實現靜態資源服務器 3. koa-bodyparse 實現body的解析,主要是post請求數據的解析 4. koa-logger 控制臺日誌

archlinux個人安裝問題記錄(未整理&未完成)[linux]

下載 pfile list uefi啟動 shanghai 重啟 建立 die cpu 安裝過程大部分參考 官方文檔:https://wiki.archlinux.org/index.php/installation_guide https://wiki.archlin

web_一些常用的線上腳本地址記錄個人使用)

使用 src run div span min asset jquer .com 1.jquery 1 <script src="http://code.jquery.com/jquery-1.4.1.min.js"></script> 2.vu

個人記錄)Python2 與Python3的版本區別

字節 title border idt == 編碼 補全 默認 異常信息 現在還有些開源模塊還沒有更新到python3 ,不了解版本區別,無法對不合適的地方進行更改。 由於只追求向Python3靠近,所以對於python2的特別用法不探究。 此文不補全所有版本區別

個人開發—進度記錄(二)

完成 設計 網頁 class 缺少 自己 整體 log 頁面 時間:2018/2/7 計劃:首頁的頂部標題部分,登錄,註冊,訂單,客服,定位,頁面跳轉 進行:手繪網頁整體布局與概括設計要點 完成:搜索素材 問題:概括設計要點時沒有清晰的思路,主要原因是具體的問題處理經驗不足

第一次個人作業工作記錄

txt ros ron .com 第一步 文件操作 優先 行數 但是 作業要求: 1. 對源文件(*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等)統計字符數、單詞數、行數、詞頻,統計結果以指定格式輸出到默認文件中