1. 程式人生 > >DeepMind&VGG提出基於集合的人臉識別演算法GhostVLAD,精度遠超IJB-B資料集state-of-the-art

DeepMind&VGG提出基於集合的人臉識別演算法GhostVLAD,精度遠超IJB-B資料集state-of-the-art

人臉識別應用中,很多場景能夠獲取某一個體的多幅人臉影象的集合(比如在監控視訊中),使用人臉影象集來做識別,這個問題被稱為基於模板的人臉識別(template-based face recognition)。

對於多幅影象,當然可以使用單幅人臉影象的識別方法,綜合多幅影象的識別結果確定最終的人臉識別結果,但更好的方式是直接基於人臉影象集提取特徵,比較人臉影象集的特徵相似性。

這涉及到如何聚合多幅人臉影象的特徵向量成為一個特徵向量,使該特徵緊湊而又

更具鑑別性的問題。

幾天前公佈的一篇來自DeepMind和VGG組被ACCV2018接收的論文《GhostVLAD for set-based face recognition

》,正是解決這樣的問題,文中提出的演算法GhostVLAD在具有較高難度的大型真實場景人臉資料集IJB-B上的識別精度,遠超過目前的state-of-the-art結果!非常值得參考!

多幅人臉影象(每次影象個數可不同)通過CNN網路提取特徵並L2歸一化,然後被送入聚合模組,GhostVLAD網路模組將多個人臉特徵聚合稱固定維數的特徵矩陣(與輸入影象個數無關),再通過全連線層FC、BN層和L2歸一化為緊湊鑑別的特徵。

其中的關鍵網路模組GhostVLAD既實現特徵聚合,同時降低低質量影象的權重,提高高質量影象的聚合權重。

GhostVLAD是如何實現上述功效的呢?

說白了一句話,既然不要人為參與,那就要構建一種網路結構,讓網路自動學習對識別不重要的資訊,並丟掉它。

作者是在NetVLAD上做出的演算法改進,NetVLAD可以理解為一種可微分完全可訓練的VLAD編碼聚合方法,它的作用大致是自動計算特徵聚類中心,計算殘差,然後把殘差加權,構建聚合特徵矩陣,整個過程方便加入到神經網路中。

該文從一個簡單的直覺開始,構建了一種幫助神經網路丟棄鑑別性不足的資訊的有效方式,大幅改進了基於影象集合的人臉識別方法,演算法具有較高的實用價值,思想也很值得借鑑!

值得一提的是,該文中的GhostVLAD方法不僅僅適用於人臉識別,在影象檢索、行人重識別等領域也同樣適用。

論文地址:

關於程式碼:

可惜的是,該文目前並無開原始碼,但DeepMind和VGG組都是一向樂於分享程式碼的,期待作者早日開源~