1. 程式人生 > >2D人臉對齊:《Look at Boundary: A Boundary-Aware Face Alignment Algorithm》

2D人臉對齊:《Look at Boundary: A Boundary-Aware Face Alignment Algorithm》

《Look at Boundary: A Boundary-Aware Face Alignment Algorithm》

目錄

0 Abstract

       本文提出了一種基於邊界輔助學習的Facial Landmark Detection方法。利用邊界線作為人臉的幾何結構來輔助特徵點檢測,與傳統的基於熱力圖和迴歸的方法不同,本文方法從邊界線處獲取Landmark座標,能有效消除landmark定義存在的歧義。
        三個問題:
        1)為什麼用邊界?
        2)怎麼用邊界?
        3)邊界估計與特徵點估計之間的關係
       在開源資料集300-W、COFW、AFLW上均重新整理了記錄
       本還提供了新的開源人臉對齊資料集:WFLW;該資料集共10000個樣本,7500供訓練,2500供測試;標籤提供了人臉框資訊、98個特徵點資訊、6種屬性資訊(姿態、表情、光照、化妝、遮擋、模糊)

1 Introduction

       Face alignment是指如何檢測出人臉特定關鍵點,是許多人臉應用的關鍵步驟,如人臉識別、人臉驗證等;本文的目的是設計一種人臉對齊演算法能夠在不同資料集標註協議上,對姿態變化和遮擋沒有約束。
       與人臉檢測和識別不同,人臉對齊是識別人臉的幾何結構,其特徵點與人臉邊界有很強的相關性,且相對特徵點,人臉邊界更好定義一些,這就為我們定義邊界來輔助人臉對齊創造了條件;引入邊界將會對姿態變化和遮擋有很大改善,因為在姿態、遮擋情況下,某些特徵點並不是角點,難以定位,而邊界則對其有引導作用;此外,開源資料特徵點個數不統一(19/29/68/86/106/194),並且將來人臉對齊特徵點定義也難預料,但好在人臉結構是唯一的。
       所以,本文定義了人臉邊界來輔助人臉對齊,並採用13條邊界線來表示人臉結構,每條邊界,由不同資料集,足夠多標註點插值而來,這樣將不會受到標註協議影響,如下圖,不同標註標準,獲得相同邊界。
這裡寫圖片描述


       本文演算法包含2個結構:
              1)人臉邊界熱力圖估計網路G
              2)人臉特徵點回歸網路R(邊界輔助)
       並在訓練階段加入了對抗學習思想,用邊界判別器網路D提升邊界的可靠性

2 Related Work

       人臉對齊演算法分類:
              1)座標迴歸模型(coordinate regression model)
              2)熱力圖迴歸模型(heatmap regression model)

3 Boundary-Aware Face Alignment

       人臉對齊輔助手段:
              1)幾何結構(geometric structure):文獻【31/47/19】均有采取輔助手段進行人臉對齊工作,但其太粗糙,相對邊界而言
              2)人臉解析(face parsing):需要將每個部分連線為一個封閉迴路,如此導致某些器官,如鼻子,被混合到整個人臉,如此定義是不恰當的,而邊界線是不需要封閉的

整體結構
       這裡寫圖片描述

3.1 Boundary-aware landmarks regressor

       特徵點回歸網路R:將邊界資訊融合到特徵學習中
       Boundary Define
       這裡寫圖片描述
       13條邊界線:外輪廓、左眉、右眉、鼻樑、鼻邊界、左上眼皮、左下眼皮、右上眼皮、右下眼皮、上嘴脣上邊、上嘴脣下邊、下嘴脣上邊、下嘴脣下邊
       定義I為人臉影象,L為ground truth,記S={sl}l=1LK表示邊界個數,k對應子集SiSSi是每個邊界插值得到的密集點位;與其對應的二進位制邊界特徵圖Bi,大小與I相同,當中僅僅在邊界線上的點位置為1,其餘為0;最後定義了與Bi對應的距離變化對映Di(每個點到對應邊緣的距離,待考證),我們基於標準差σ的高斯表示式來變換距離對映Di為真實邊界熱力圖Mi,如下式1,3σ為閾值,能更好保證邊界熱力圖在邊界區域,實際應用中,為了計算效率,一般設定真實邊界熱力圖長度為I的1/4大小。
       這裡寫圖片描述
       為了更好地利用豐富的邊界熱力圖資訊,我們採用多級邊界熱力圖資訊融合機制,如圖2中,4級res-18網路作為基礎網路,每級網路都進行邊界資訊融合(Boundary heatmap fusion),包含1次輸入影象融合(Input Image Fusion),3次特徵圖融合(Feature Map Fusion)
       Input Image Fusion
       該融合的目的是強化邊界文理資訊,弱化背景及弱文理區域資訊,原理如下
       這裡寫圖片描述
       其中表示通道連線(channel-wise concatenation); 表示畫素點積運算(element-wise dot product operation)

       Feature Map Fusion
       與影象融合類似,邊界特徵熱圖M,通道數固定,即邊界線個數13,特徵圖F,,融合特徵圖H表示如下:
       這裡寫圖片描述
       點積時,要求通道數相同,T變換來完成這個工作,如下圖
       這裡寫圖片描述
       選用沙漏結構作為T變換,上下采樣平衡,保證特徵圖大小一致,Skip connections保證多尺度資訊,sigmod歸一化輸出為[0,1],卷積stride為1,保證覆蓋到區域性區域
       在採用邊界熱力圖資訊融合基礎上,本文方法在300-W上獲得76.26%的AUC(area-under-the-curve),相比之前最好成績54.85%

3.2 Boundary heatmap estimator

       本文采用文獻【35】提出的層疊沙漏網路作為邊界熱力圖估計網路G,採用均方差優化邊界熱力圖,但是當存在嚴重遮擋時,熱力圖容易受到噪聲和多模式的影響,本文參考文獻【9/12】,採用對抗思想(Boundary effectiveness discriminator)和文獻【11】的訊息通訊機制(message passing layers)來提升邊界生成的可靠性,如下圖效果
       這裡寫圖片描述
       這裡寫圖片描述
訊息通訊機制(message passing layers)
       1)Intra‐level Message Passing
       在每個沙漏網路最後,圖2中紅色的MPL模組,不同邊界線之間進行通訊
       2)Inter-level message passing
       在相鄰兩個沙漏網路間,從低到高的相同邊界線通訊
       這裡寫圖片描述

       3)訊息通訊機制詳解
       訊息通訊計算量和引數開銷是很小的,訊息通訊例項結構如下
       這裡寫圖片描述
       如圖h1是前一級沙漏加上1x1卷積的256通道特徵圖,Ait表示第t級的第i個邊界,具有16個通道正向傳遞,如下公式
       這裡寫圖片描述
       其中,wait表示邊界i的權值矩陣,*表示卷積,f表示ReLU,在通過訊息通訊後Ait變為Ait
       舉個例子,Stack2中邊界6(左眉毛),從Stack2中邊界2(左上眼皮)和Stack1中邊界6(左眉毛)接受訊息,即進行intra and inter-level邊界通訊,原理如下
       這裡寫圖片描述
       同樣地,訊息傳遞也存在反向傳遞,如圖B模組;最終某級沙漏輸出有正向和反向資訊融合得到:
       這裡寫圖片描述
       其中表示通道串連線(concate),wait表示1x1卷積,輸出單通道預測熱力圖M^it,預測K(13)個熱力圖
       再者,每級沙漏網路都額外追加MSE(Mean Squared Error)Loss Function:
       這裡寫圖片描述

3.3 Boundary effectiveness discriminator

       邊界熱力圖估計,採用MSE(mean squared error)作為loss function,但最小化MSE有時候使得預測看起來模糊不可信,這個迴歸均值問題是總所周知的,參見超解析度文獻【40】,這個問題會破壞迴歸網路的學習,當生成錯誤邊界時。
       然後,又很難定義好的評估矩陣來評價boundary heatmaps的質量,因此,本文采用一個邊界有效判別器D(boundary effectiveness discriminator)來區分生成boundary heatmaps的有效性。其結構如圖2中右上部分,定義如下:
       這裡寫圖片描述
       其中M表示生成邊界熱力圖, S表示ground-truth對應熱力圖,Dist表示ground-truth距離矩陣對映,θ表示距離閾值, δ表示概率閾值;意思是某一張邊緣圖預測出來的對應的關鍵點在