1. 程式人生 > >每日一篇論文閱讀------影象分割篇

每日一篇論文閱讀------影象分割篇

[2017.07.10] Rethinking Atrous Convolution for Semantic Image Segmentation [文章連結]

  • 2017-06-17, Liang-Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam [google research]
  • DeepLab v3, 影象的語義分割
  • 主要內容:

    這裡寫圖片描述

    1. 語義分割的兩大問題:

      [1]. pooling可以增加捲積感受野提取更多語義資訊,但是會減小影象解析度,帶來影象分割邊緣的離散.
      作者引入Atrous思想,在訓練好的模型的權重之間插入空隙,等價於pooling
      ,但是可以控制好影象的解析度。 作者在Atrous基礎上設定了多種尺度,和Batch Normalization來方便模型訓練。
      [2]. 待分割物體的尺度多樣化,作者主要通過空間金字塔來增加尺度資訊。(spatial pyramid pooling)
    2. 實驗發現,在ResNet中,連續的stride不利於影象分割,因為細節資訊會損失,因此需要在使用Atrous的時候增加不同尺度。

      這裡寫圖片描述

    3. 在最後一層上加入Global average pooling來提取全圖的資訊。

  • 對比實驗
    在PASCAL VOC2012上面,不適用任何後處理就可以達到最好的效果。

    這裡寫圖片描述