DeepMind&VGG提出基於集合的人臉識別演算法GhostVLAD,精度遠超IJB-B資料集state-of-the-art

阿新 • • 發佈：2018-12-20

人臉識別應用中，很多場景能夠獲取某一個體的多幅人臉影象的集合（比如在監控視訊中），使用人臉影象集來做識別，這個問題被稱為基於模板的人臉識別（template-based face recognition）。

對於多幅影象，當然可以使用單幅人臉影象的識別方法，綜合多幅影象的識別結果確定最終的人臉識別結果，但更好的方式是直接基於人臉影象集提取特徵，比較人臉影象集的特徵相似性。

這涉及到如何聚合多幅人臉影象的特徵向量成為一個特徵向量，使該特徵緊湊而又

更具鑑別性的問題。

幾天前公佈的一篇來自DeepMind和VGG組被ACCV2018接收的論文《GhostVLAD for set-based face recognition

》，正是解決這樣的問題，文中提出的演算法GhostVLAD在具有較高難度的大型真實場景人臉資料集IJB-B上的識別精度，遠超過目前的state-of-the-art結果！非常值得參考！

多幅人臉影象（每次影象個數可不同）通過CNN網路提取特徵並L2歸一化，然後被送入聚合模組，GhostVLAD網路模組將多個人臉特徵聚合稱固定維數的特徵矩陣（與輸入影象個數無關），再通過全連線層FC、BN層和L2歸一化為緊湊鑑別的特徵。

其中的關鍵網路模組GhostVLAD既實現特徵聚合，同時降低低質量影象的權重，提高高質量影象的聚合權重。

GhostVLAD是如何實現上述功效的呢？

說白了一句話，既然不要人為參與，那就要構建一種網路結構，讓網路自動學習對識別不重要的資訊，並丟掉它。

作者是在NetVLAD上做出的演算法改進，NetVLAD可以理解為一種可微分完全可訓練的VLAD編碼聚合方法，它的作用大致是自動計算特徵聚類中心，計算殘差，然後把殘差加權，構建聚合特徵矩陣，整個過程方便加入到神經網路中。

該文從一個簡單的直覺開始，構建了一種幫助神經網路丟棄鑑別性不足的資訊的有效方式，大幅改進了基於影象集合的人臉識別方法，演算法具有較高的實用價值，思想也很值得借鑑！

值得一提的是，該文中的GhostVLAD方法不僅僅適用於人臉識別，在影象檢索、行人重識別等領域也同樣適用。

論文地址：

關於程式碼：

可惜的是，該文目前並無開原始碼，但DeepMind和VGG組都是一向樂於分享程式碼的，期待作者早日開源～