1. 程式人生 > >論文閱讀:Disentangled Representation Learning GAN for Pose-Invariant Face Recognition

論文閱讀:Disentangled Representation Learning GAN for Pose-Invariant Face Recognition

ICCV2017的文章,主要使用multi-task的GAN網路來提取pose-invariant特徵,同時生成指定pose的人臉。

下載連結:

作者:

Motivation:

對於大pose的人臉識別,現在大家都是兩種方案:1 先轉正再人臉識別。2 直接學習出一個對pose魯棒的人臉特徵。作者認為,這兩個任務如果能夠joint起來做,會起到更好的效果。

主要內容:

作者提出了DR-GAN,主要的貢獻是:1,在生成人臉影象的同時,能夠保持discriminate的資訊。2,有一個pose code輸入到decoder,使學習到的特徵擺脫pose的困擾。3,接受同一個人多張圖片的同時輸入,每個圖片生成一個權重,來綜合性地識別視訊人臉。

作者設計瞭如上的DR-GAN的結構。

1,G是encoder-decoder的結構,encoder負責生成一個很general的人臉表示,在這個representation加入隨機噪聲和pose的指令給decoder,讓decoder生成一個指定pose的人臉。

公式中,p表示pose,d表示label資訊。G生成的圖片讓D去正確分類其label和pose。

2,D是一個multi-task的鑑別器,他有三個作用,一是鑑別生成的指定的pose的人臉和真實人臉,二是對生成的人臉進行分類(一共N+1類,多出來的表示不屬於訓練集的任何一個類),有一個分類loss來preserve生成的人臉的label。三是可以進行人臉pose的分類。

公式中,p表示pose,d表示label資訊。訓練decoder的時候用真實的人臉訓練D的pose分類器。

3,作者對上述進行了擴充套件,讓系統接受多個圖片輸入:

這樣由G自動學習出權重。

結果:

生成的結果:

識別結果:

思考:

這種multi-task的方式很值得借鑑。讓decoder生成指定pose的人臉,來保證生成的人臉表示是一個很general的,擺脫了pose的影響,是很好的思路,避免了cycle-GAN可能存在的那種生成的人臉特徵其實包含pose資訊的缺點。