1. 程式人生 > >【論文閱讀】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification

【論文閱讀】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification

分享圖片 xiv onf class 編碼 isp conf caf 策略

轉載請註明出處:https://www.cnblogs.com/White-xzx/

原文地址:https://arxiv.org/abs/1702.05891

Caffe-code:https://github.com/zhufengx/SRN_multilabel

如有不準確或錯誤的地方,歡迎交流~

  

  空間正則化網絡(Spatial Regularization Network, SRN),學習所有標簽間的註意力圖(attention maps),並通過可學習卷積挖掘標簽間的潛在關系,結合正則化分類結果和 ResNet-101 網絡的分類結果,以提高圖像分類表現。

【SRN的優勢】

  (1)挖掘圖像多標簽之間的語義和空間關聯性,較大地提高精度;

  (2)當網絡模型對具有空間相關標簽的圖片訓練後,註意力機制自適應地關註圖像的相關區域

  (3)圖像級標註,端到端訓練

    技術分享圖片

【SRN網絡結構】

  (1)Main Net:ResNet-101,針對各標簽分別學習得到獨立的分類器。“Res-2048” 表示具有2048輸出的 ResNet 網絡模塊;

  (2)SRN 采用ResNet-101的視覺特征作為輸入,利用註意力機制學習得到標簽間的正則空間關系;

  (3)結合主網絡和SRN的分類結果得到最終的分類置信度;

技術分享圖片

  【Main Net】

  技術分享圖片技術分享圖片技術分享圖片

  【SRN:註意力機制 fatt(·)】

  當圖像存在某個標簽時,更多的註意力應該放在相關的區域,標簽註意力圖編碼了標簽對應的豐富空間信息。l被標記則l相關區域的註意力值應該更高

  技術分享圖片

  技術分享圖片

   註意力圖能用於產生更魯棒的空間正則信息,但每個標簽的註意力圖總是和為1,可能會突出錯誤位置,造成錯誤的空間正則信息,論文提出使用加權註意力圖U,U解碼了標簽局部和全局的置信分數(confidence)。

  技術分享圖片

  【SRN:fsr(·)結構】

  conv2、conv3多通道,512輸出,捕捉多標簽的語義關系;

  conv4單通道,2048輸出,4個kernel為一組纏繞1個相同的特征通道,不同kernel捕捉語義關聯標簽間的不同空間關系。

  技術分享圖片

【Multiple Steps 分步訓練】

  技術分享圖片

  分四個階段: ①只訓練主網絡, 基於 ResNet,pretrained on ImageNet,fcnn 和 fcls;

        ②固定 fcnn 和 fcls, 訓練 fatt;

        ③固定 fcnn, fcls和 fatt,訓練 fsr;

        ④聯合訓練整個網絡。

  圖像增強策略: ①resize為256×256

          ②裁剪4個角和中心區域,長寬在{256,224,192,168,128}中隨機選取

          ③resize為224×224

【實驗結果】

  技術分享圖片

  技術分享圖片

 

技術分享圖片

【論文閱讀】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification