FaceNet--Google的人臉識別

阿新 • • 發佈：2019-01-04

引入

隨著深度學習的出現，CV領域突破很多，甚至掀起了一股CV界的創業浪潮，當次風口浪尖之時，Google豈能缺席。特貢獻出FaceNet再次重新整理LFW上人臉驗證的效果記錄。

FaceNet

與其他的深度學習方法在人臉上的應用不同，FaceNet並沒有用傳統的softmax的方式去進行分類學習，然後抽取其中某一層作為特徵，而是直接進行端對端學習一個從影象到歐式空間的編碼方法，然後基於這個編碼再做人臉識別、人臉驗證和人臉聚類等。

FaceNet演算法有如下要點：

去掉了最後的softmax，而是用元組計算距離的方式來進行模型的訓練。使用這種方式學到的影象表示非常緊緻，使用128位足矣。

元組的選擇非常重要，選的好可以很快的收斂。

先看具體細節。

網路架構

大體架構與普通的卷積神經網路十分相似：

如圖所示：Deep Architecture就是卷積神經網路去掉sofmax後的結構，經過L2的歸一化，然後得到特徵表示，基於這個特徵表示計算三元組損失。

目標函式

在看FaceNet的目標函式前，其實要想一想DeepID2和DeepID2+演算法，他們都添加了驗證訊號，但是是以加權的形式和softmax目標函式混合在一起。Google做的更多，直接替換了softmax。

所謂的三元組就是三個樣例，如(anchor, pos, neg)，其中，x和p是同一類，x和n是不同類。那麼學習的過程就是學到一種表示，對於儘可能多的三元組，使得anchor和pos的距離，小於anchor和neg的距離。即：

所以，變換一下，得到目標函式：

目標函式的含義就是對於不滿足條件的三元組，進行優化；對於滿足條件的三元組，就pass先不管。

三元組的選擇

很少的資料就可以產生很多的三元組，如果三元組選的不得法，那麼模型要很久很久才能收斂。因而，三元組的選擇特別重要。

當然最暴力的方法就是對於每個樣本，從所有樣本中找出離他最近的反例和離它最遠的正例，然後進行優化。這種方法有兩個弊端：

耗時，基本上選三元組要比訓練還要耗時了，且等著吧。
容易受不好的資料的主導，導致得到的模型會很差。

所以，為了解決上述問題，論文中提出了兩種策略。

每N步線下在資料的子集上生成一些triplet

線上生成triplet，在每一個mini-batch中選擇hard pos/neg 樣例。

為了使mini-batch中生成的triplet合理，生成mini-batch的時候，保證每個mini-batch中每個人平均有40張圖片。然後隨機加一些反例進去。在生成triplet的時候，找出所有的anchor-pos對，然後對每個anchor-pos對找出其hard neg樣本。這裡，並不是嚴格的去找hard的anchor-pos對，找出所有的anchor-pos對訓練的收斂速度也很快。

除了上述策略外，還可能會選擇一些semi-hard的樣例，所謂的semi-hard即不考慮alpha因素，即：

網路模型

論文使用了兩種卷積模型：

第一種是Zeiler&Fergus架構，22層，140M引數，1.6billion FLOPS(FLOPS是什麼？)。稱之為NN1。
第二種是GoogleNet式的Inception模型。模型引數是第一個的20分之一，FLOPS是第一個的五分之一。
基於Inception模型，減小模型大小，形成兩個小模型。
- NNS1：26M引數，220M FLOPS。
- NNS2：4.3M引數，20M FLOPS。
NN3與NN4和NN2結構一樣，但輸入變小了。
- NN2原始輸入：224×224
- NN3輸入：160×160
- NN4輸入：96×96

其中，NNS模型可以在手機上執行。

其實網路模型的細節不用管，將其當做黑盒子就可以了。

資料和評測

在人臉識別領域，我一直認為資料的重要性很大，甚至強於模型，google的資料量自然不能小覷。其訓練資料有100M-200M張影象，分佈在8M個人上。

當然，google訓練的模型在LFW和youtube Faces DB上也進行了評測。

下面說明了多種變數對最終效果的影響

網路結構的不同

影象質量的不同

最終生成向量表示的大小的不同

訓練資料大小的不同

對齊與否

在LFW上，使用了兩種模式：

直接取LFW圖片的中間部分進行訓練，效果98.87左右。
使用額外的人臉對齊工具，效果99.63左右，超過deepid。

總結

三元組的目標函式並不是這篇論文首創，我在之前的一些Hash索引的論文中也見過相似的應用。可見，並不是所有的學習特徵的模型都必須用softmax。用其他的效果也會好。
三元組比softmax的優勢在於
- softmax不直接，（三元組直接優化距離），因而效能也不好。
- softmax產生的特徵表示向量都很大，一般超過1000維。
FaceNet並沒有像DeepFace和DeepID那樣需要對齊。
FaceNet得到最終表示後不用像DeepID那樣需要再訓練模型進行分類，直接計算距離就好了，簡單而有效。
論文並未探討二元對的有效性，直接使用的三元對。

參考文獻

[1]. Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering[J]. arXiv preprint arXiv:1503.03832, 2015.

FaceNet--Google的人臉識別

引入

FaceNet

網路架構

目標函式

三元組的選擇

網路模型

資料和評測

網路結構的不同

影象質量的不同

最終生成向量表示的大小的不同

訓練資料大小的不同

對齊與否

總結

參考文獻

Android Google人臉識別利用雙層 SurfaceView 原始碼實戰

FaceNet--Google的人臉識別

人臉識別——FaceBook的DeepFace、Google的FaceNet、DeepID

DeepFace--Facebook的人臉識別＆＆　FaceNet--Google的人臉識別

人臉識別FaceNet+TensorFlow

MTCNN與facenet實現實時人臉識別

利用MTCNN和facenet實現人臉檢測和人臉識別

【人臉識別】FaceNet: A Unified Embedding for Face Recognition and Clustering 翻譯

基於mtcnn/facenet/tensorflow實現人臉識別登入系統

facenet 人臉識別（一）

人臉識別 - DeepID之三代（Google）

第三十七節、人臉檢測MTCNN和人臉識別Facenet(附原始碼)

人臉識別（Facenet）

基於tensorflow的人臉識別技術(facenet)的測試

tensorflow 實現人臉識別（facenet）

深度學習——Face Verificaton（人臉驗證）與Face Recognition（人臉識別）在FaceNet的應用案例

人臉識別系列（六）：FaceNet

人臉識別關鍵點/五官定位效果分析---點擊圖片提供下載測試，歡迎提供建議

人臉識別中的harr特征提取（轉）

雲脈人臉識別解決方案輔助商業應用

FaceNet--Google的人臉識別

引入

FaceNet

網路架構

目標函式

三元組的選擇

網路模型

資料和評測

網路結構的不同

影象質量的不同

最終生成向量表示的大小的不同

訓練資料大小的不同

對齊與否

總結

參考文獻

相關推薦