1. 程式人生 > 其它 >DeepLab V3論文閱讀筆記

DeepLab V3論文閱讀筆記

DeepLab V3

這是2017年發表在CVPR上的文章。相比於V2而言,主要不同之處有三個:引入了Multi-grid、改進了ASPP結構、移除CRFs後處理。

解決多尺度問題的幾種辦法:

在DeepLab V3中作者提出了兩種結構:cascaded model以及ASPP model:

DeepLabV3的幾個模組與ResNet50的conv層相對應。

在cascaded模型中,其還增加了block5、6以及7,其與block4基本相同,只是採用了不同的膨脹係數。對於block3,只在訓練的時候進行下采樣,這樣可以讓訓練時的batch size變大,同時可以加快推理速度。同時如果驗證時仍然在block3下采樣到16倍的話效果會差一些。現在可以直接下采樣到8倍,因為裝置的視訊記憶體增大了。

對於ASPP model,主要看ASPP這個模組。

在V2的ASPP模組中每個空洞卷積後沒有BN和ReLU,這四個分支上的輸出相加之後就直接上取樣還原到原圖大小了。上圖的膨脹係數翻倍的原因是作者在原論文中提到如果下采樣到8倍的話膨脹係數需要翻倍。同時在全域性池化層後需要用1*1卷積來調整channel。

multi-grid

ASPP model沒有block567,因此對於cascaded model使用(1, 2, 1),對於ASPP model使用(1, 2, 4)。

訓練細節: