閱讀CVPR論文“Local Relation Networks for Image Recognition”的小結
阿新 • • 發佈:2022-03-31
該論文的研究背景是:卷積層一直是計算機視覺中的主要特徵提取器。然而,卷積中的空間聚合大多應用固定過濾器,但這些過濾器在對具有不同空間分佈的視覺元素進行建模時效率低下。本文提出了一種新的影象特徵提取器,即區域性關係層,它根據區域性畫素對的組成關係自適應地確定聚合權重。
研究動機:人類擁有“以有限的方式看到無限的世界”的非凡能力,人類可以通過感知一組有限的低階視覺行為來組合無限的高階視覺行為,並形成對所觀察場景的理解。本文模擬這種思想,提出區域性關係層,構建了一個可以在區域性區域的視覺元素之間自適應地推斷出有意義的組合結構,通過區域性畫素對的可組合性來調整聚合權重,提出了一種更有效的影象特徵提取器。
主要貢獻:
①卷積層和拓展:提出自下而上的方式確定聚合權重,更加有效提取視覺行為
②提出膠囊網路
③提出自動注意力網路,彌合了將組合性引入表示的一般理念
所提出的網路結構(如下圖):
實驗結論:本文將區域性關係層作為影象特徵提取器,提出將組合性引入表示的理念。使用自下而上的方法實現聚合權重,顯著提升了視覺行為提取的效果,由這個新層組成的深度網路在 ImageNet 分類上展示了強大的結果,具有 26 層和瓶頸殘差塊的 LR-Net 在 ImageNet 影象分類任務 的 top-1 準確度上比常規的 26 層 ResNet 顯著高出了3%。
未來工作展望:
1、優化GPU記憶體排程,提升模型速度
2、探索更好的設計,超越先進的卷積方法
3、探索其他屬性和其他視覺任務的適用性。