1. 程式人生 > >A Light CNN for Deep Face Representation with Noisy Labels

A Light CNN for Deep Face Representation with Noisy Labels

清晰 深度 html spa sca 數據 由於 圖像 測試數據

承接上一篇博客。該論文思路清晰,實驗充分,這裏大致寫一些比較不錯的idea。從標題就能看出本文的主要貢獻:輕量、魯棒。利用一個輕量CNN大規模數據且含大量噪聲中來學習一個深度面部表征。 直接談談貢獻:

  • 本文介紹MFM操作,一種特殊的maxout來學習少參數網絡。相比於ReLU從數據中學來閾值,MFM采用一種競爭關系來得到更好的泛化能力,適應於不同的數據分布。
  • 輕量CNN和MFM一起用來學習一種統一的面部表征。我們按照AlexNet、VGG、ResNet設計了三種輕量網絡。所提出的模型在時空復雜度都有很好的表現。
  • 通過預訓練得到的一種語義自提升方法被設計用來處理大尺度數據中的噪聲數據。不連續的數據可以通過概率預測而有效檢測出來,然後被移除來訓練。
  • 所提出的單模型學習到256維深度表征,在各種數據集上:large-scale、video-based、cross-age face recognition、cross-view face recognition等數據集。

相關工作不再贅述,以下是網絡結構部分。

1. Max-Feature-Map operation(MFM)

一個規模龐大的數據集通常含有噪聲,所以如果噪聲不能合適解決,CNN會有偏差。ReLU激活函數通過一個閾值來劃分噪聲信號信息信號,這通過相應的激活與抑制來實現。然而這個閾值可能導致尤其是前幾個卷積層的信息丟失(視為ReLU的副作用?)。因為這些層類似於Gabor濾波器。為了減輕這個問題,LReLU、PReLU和ELU等被相繼提出。考慮到人腦側抑制等啟發,一個卷積層的激活函數應有以下特性:

  • 由於大規模數據集通常含有各種類型噪聲,我們希望噪聲信號和信息信號可被分離。
  • 當在圖像中有水平的邊或線時,對應檢測水平信息的神經元應該興奮而響應垂直信息的神經元應被抑制。
  • 神經元的側抑制是無參的,所以應該不取決於大量數據。

介於此,提出MFM操作,是Maxout activation的拓展。然而其本質不同。Maxout通過大量隱層元來近似一個任意凸函數。更多神經元更好的近似結果。一般來講Maxout網絡要大於ReLU網絡。MFM根據max函數來已知一小部分的神經元,所以基於MFM的網絡輕量且魯棒。盡管兩者都用max函數,MFM不能視為凸函數估計。我們定義兩種MFM操作來獲取競爭特征圖。下圖很清楚:

技術分享圖片 技術分享圖片

2. The Light CNN Framework

MMF在CNN中起到類似生物中局部特征選擇的角色。MFM在不同的位置挑選不同濾波器學到的最優特征。在反向傳播時導致0、1梯度來抑制或激活神經元。伴有MMF的CNN可獲得更緊湊的表征,雖然MFM層的梯度是稀疏的。MFM通過激活前面卷積層的特征圖的最大值可以獲取更多富有競爭力的節點。所以MFM可以實現特征選擇並加速生成稀疏連接。

以下是作者按照AlexNet、VGG、ResNet實現的伴有MFM的三個網絡,這裏直接貼出第二個:因為Network in Network (NIN)可以在卷積層之間做出潛在的特征選擇,通過采用小卷積核可以減少網絡參數。所以在網絡中嵌入NIN和小卷積核的MFM。

技術分享圖片

值得註意的是作者去掉了BN:因為BN是有域特征的,即當測試數據和訓練數據來自不同域時,BN可能導致失敗(這就需要IBN的操作了,即搭配IN來減小域影響)。此外利用FC來代替GAP(global average pool),作者認為高級特征圖的每個節點都同時包含語義信息和空間信息,然而這有可能被GAP破壞。作者在FC設置了0.7的dropout,卷積層和除了最後一個FC的權重衰減設為5e-4,而最後一個fc不再擔任特征提取角色,所以權重衰減設為5e-3來避免過擬合卷積層和全連接初始化分別為Xavier和Gaussian。此外特征相似性采用cosine similarity

some results:

技術分享圖片

技術分享圖片

3. 網絡分析

MFM操作在輕量CNN中意義重大下圖說明了不同激活函數中,對於人臉表征學習人物來說,MFM表現最優。且MFM3/2優於MFM2/1

技術分享圖片

為什麽MFM效果這麽好呢?原因就是MFM利用了競爭關系而非閾值來激活神經元。由於訓練和測試集源於不同數據源,所以MFM有更好的泛化能力。MFM3/2 比 MFM2/1的結果更好,表明當利用MFM時,最好只有一小部分神經元被抑制,所以更多信息被保留在下一卷積層中。也就是說輸入與輸出神經元個數比應在1~2之間。

下圖表明了BN在域差異問題上的缺憾:沒有BN會更好

技術分享圖片

4. 結論

受神經元側抑制和maxout activation的啟發,提出一個Max-Feature-Map(MFM)操作,可得到壓縮的低維面部表征。卷積層的小核尺寸,Network in Network層、殘差塊等實現用來縮減參數空間並提高性能。本文的網絡結構更小更快。

技術分享圖片

附:MFM示意圖(參考:博客)

技術分享圖片

根據上面的MFM示意圖,可以看到灰度圖像(單通道)輸入到兩個相同結構的卷積層中,MFM比較兩個卷積層中對應的通道,取最大值

技術分享圖片

A Light CNN for Deep Face Representation with Noisy Labels