論文閱讀:Unsupervised Domain Adaptation for Face Recognition in Unlabeled Videos
概述:
Unsupervised Domain Adaptation for Face Recognition in Unlabeled Videos,ICCV 2017的文章,實現的是用domain adaptation技術將沒有label 的視訊資料遷移到圖片識別網路中。
作者:
URL:
Motivation:
1 有label的視訊人臉資料比較少,遠不如labeled face image多。
2 視訊人臉和圖片人臉會有一些domain上的差別,比如會有blur等。這種問題適合domain adaptation解決。
3 需要對video中質量高的加以更高的權重來提取人臉特徵。
Insight:
1 提出了用domain adaptation來解決視訊人臉識別的框架。
2 對圖片進行degrade(blur,噪聲等),當作image bridge來連線人臉圖片和視訊人臉之間的gap,本質上是data augmentation。
3 利用discriminator來提取一個置信度的方法對視訊人臉質量進行判定和加權。
方法:
先訓練好一個RFNet(圖片特徵提取網路),然後根據一系列的loss來訓練VDNet(Video人臉特徵提取網路):
灰色表示預訓練好並且再訓練VDNet的時候保持不變的層。
一系列的Loss如下:
L_FM是讓同樣一張圖片VDNet和FRNet要很相似。
L_FR是讓一張圖片經過VDNet和經過image degrade之後的特徵的期望儘量相似。
L_IC是一個metric learning的loss,比如triplet,來保持discriminative。文中使用N-pair Loss。
L_adv是GAN網路類似的loss,一方面讓discriminator不能分辨這是VDN額頭出來的特徵還是FRNet出來的特徵,Discriminator就是兩層的fc。Discriminator能學習到這個feature屬於高清image的置信度,這個置信度可以當作質量判斷的權重。
整體的Loss就是上述幾項loss相加,交替訓練VDNet和discriminator。
實驗
YTF和IJB-A
學習到的weight:
Thinking:
使用Domain Adaptation的方式處理人臉問題,框架比較新穎,很有啟發性,用discriminator來進行質量判斷也是一個很好的思路,只是學習到的權重差別都不是特別大,感覺可以通過一個變換把權重的range變大。