DeepMind&VGG提出基於集合的人臉識別演算法GhostVLAD,精度遠超IJB-B資料集state-of-the-art
人臉識別應用中,很多場景能夠獲取某一個體的多幅人臉影象的集合(比如在監控視訊中),使用人臉影象集來做識別,這個問題被稱為基於模板的人臉識別(template-based face recognition)。
對於多幅影象,當然可以使用單幅人臉影象的識別方法,綜合多幅影象的識別結果確定最終的人臉識別結果,但更好的方式是直接基於人臉影象集提取特徵,比較人臉影象集的特徵相似性。
這涉及到如何聚合多幅人臉影象的特徵向量成為一個特徵向量,使該特徵緊湊而又
更具鑑別性的問題。
幾天前公佈的一篇來自DeepMind和VGG組被ACCV2018接收的論文《GhostVLAD for set-based face recognition
多幅人臉影象(每次影象個數可不同)通過CNN網路提取特徵並L2歸一化,然後被送入聚合模組,GhostVLAD網路模組將多個人臉特徵聚合稱固定維數的特徵矩陣(與輸入影象個數無關),再通過全連線層FC、BN層和L2歸一化為緊湊鑑別的特徵。
其中的關鍵網路模組GhostVLAD既實現特徵聚合,同時降低低質量影象的權重,提高高質量影象的聚合權重。
GhostVLAD是如何實現上述功效的呢?
說白了一句話,既然不要人為參與,那就要構建一種網路結構,讓網路自動學習對識別不重要的資訊,並丟掉它。
作者是在NetVLAD上做出的演算法改進,NetVLAD可以理解為一種可微分完全可訓練的VLAD編碼聚合方法,它的作用大致是自動計算特徵聚類中心,計算殘差,然後把殘差加權,構建聚合特徵矩陣,整個過程方便加入到神經網路中。
該文從一個簡單的直覺開始,構建了一種幫助神經網路丟棄鑑別性不足的資訊的有效方式,大幅改進了基於影象集合的人臉識別方法,演算法具有較高的實用價值,思想也很值得借鑑!
值得一提的是,該文中的GhostVLAD方法不僅僅適用於人臉識別,在影象檢索、行人重識別等領域也同樣適用。
論文地址:
關於程式碼:
可惜的是,該文目前並無開原始碼,但DeepMind和VGG組都是一向樂於分享程式碼的,期待作者早日開源~