1. 程式人生 > >論文閱讀:Unsupervised Domain Adaptation for Face Recognition in Unlabeled Videos

論文閱讀:Unsupervised Domain Adaptation for Face Recognition in Unlabeled Videos

概述:

Unsupervised Domain Adaptation for Face Recognition in Unlabeled Videos,ICCV 2017的文章,實現的是用domain adaptation技術將沒有label 的視訊資料遷移到圖片識別網路中。

作者:

URL:

Motivation:

1 有label的視訊人臉資料比較少,遠不如labeled face image多。

2 視訊人臉和圖片人臉會有一些domain上的差別,比如會有blur等。這種問題適合domain adaptation解決。

3 需要對video中質量高的加以更高的權重來提取人臉特徵。

Insight:

1 提出了用domain adaptation來解決視訊人臉識別的框架。

2 對圖片進行degrade(blur,噪聲等),當作image bridge來連線人臉圖片和視訊人臉之間的gap,本質上是data augmentation。

3 利用discriminator來提取一個置信度的方法對視訊人臉質量進行判定和加權。

方法:

先訓練好一個RFNet(圖片特徵提取網路),然後根據一系列的loss來訓練VDNet(Video人臉特徵提取網路):

灰色表示預訓練好並且再訓練VDNet的時候保持不變的層。

一系列的Loss如下:

L_FM是讓同樣一張圖片VDNet和FRNet要很相似。

L_FR是讓一張圖片經過VDNet和經過image degrade之後的特徵的期望儘量相似。

L_IC是一個metric learning的loss,比如triplet,來保持discriminative。文中使用N-pair Loss。

L_adv是GAN網路類似的loss,一方面讓discriminator不能分辨這是VDN額頭出來的特徵還是FRNet出來的特徵,Discriminator就是兩層的fc。Discriminator能學習到這個feature屬於高清image的置信度,這個置信度可以當作質量判斷的權重。

整體的Loss就是上述幾項loss相加,交替訓練VDNet和discriminator。

實驗

YTF和IJB-A

學習到的weight:

Thinking:

使用Domain Adaptation的方式處理人臉問題,框架比較新穎,很有啟發性,用discriminator來進行質量判斷也是一個很好的思路,只是學習到的權重差別都不是特別大,感覺可以通過一個變換把權重的range變大。