【論文閱讀】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification
轉載請註明出處:https://www.cnblogs.com/White-xzx/
原文地址:https://arxiv.org/abs/1702.05891
Caffe-code:https://github.com/zhufengx/SRN_multilabel
如有不準確或錯誤的地方,歡迎交流~
空間正則化網絡(Spatial Regularization Network, SRN),學習所有標簽間的註意力圖(attention maps),並通過可學習卷積挖掘標簽間的潛在關系,結合正則化分類結果和 ResNet-101 網絡的分類結果,以提高圖像分類表現。
【SRN的優勢】
(1)挖掘圖像多標簽之間的語義和空間關聯性,較大地提高精度;
(2)當網絡模型對具有空間相關標簽的圖片訓練後,註意力機制自適應地關註圖像的相關區域
(3)圖像級標註,端到端訓練
【SRN網絡結構】
(1)Main Net:ResNet-101,針對各標簽分別學習得到獨立的分類器。“Res-2048” 表示具有2048輸出的 ResNet 網絡模塊;
(2)SRN 采用ResNet-101的視覺特征作為輸入,利用註意力機制學習得到標簽間的正則空間關系;
(3)結合主網絡和SRN的分類結果得到最終的分類置信度;
【Main Net】
【SRN:註意力機制 fatt(·)】
當圖像存在某個標簽時,更多的註意力應該放在相關的區域,標簽註意力圖編碼了標簽對應的豐富空間信息。l被標記則l相關區域的註意力值應該更高
註意力圖能用於產生更魯棒的空間正則信息,但每個標簽的註意力圖總是和為1,可能會突出錯誤位置,造成錯誤的空間正則信息,論文提出使用加權註意力圖U,U解碼了標簽局部和全局的置信分數(confidence)。
【SRN:fsr(·)結構】
conv2、conv3多通道,512輸出,捕捉多標簽的語義關系;
conv4單通道,2048輸出,4個kernel為一組纏繞1個相同的特征通道,不同kernel捕捉語義關聯標簽間的不同空間關系。
【Multiple Steps 分步訓練】
分四個階段: ①只訓練主網絡, 基於 ResNet,pretrained on ImageNet,fcnn 和 fcls;
②固定 fcnn 和 fcls, 訓練 fatt;
③固定 fcnn, fcls和 fatt,訓練 fsr;
④聯合訓練整個網絡。
圖像增強策略: ①resize為256×256
②裁剪4個角和中心區域,長寬在{256,224,192,168,128}中隨機選取
③resize為224×224
【實驗結果】
【論文閱讀】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification