deeplab系列論文研讀

阿新 • • 發佈：2020-07-28

Deeplab v1:(2015)SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS
Deeplab v2:(2016.06)Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and Fully Connected CRFs
Deeplab v3:(2017)Rethinking Atrous Convolution for Semantic Image Segmentation
Deeplab v3+:(2018)Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

Deeplab v1:(2015)SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS
論文的寫作時間是2014年，當時深度卷積神經網路在高階視覺研究領域取得了突破。其卷積和池化操作保證了其不變性，能夠提取高階抽象特徵。
不變性指的是平移不變性，卷積層擴大感知野，池化層的pooling操作，即使影象有小的位移、縮放、扭曲等，提取到的特徵依然會保持不變，減小了相對空間位置的影響。
這在高階特徵提取中作用重大，但在一些低階視覺研究，如語義分割任務中效果是不理想的。我們希望獲取具體的空間資訊，而這些資訊隨著網路的加深慢慢丟失掉。
於是對於語義分割任務，DCNN存在兩個問題。
第一，最大池化和下采樣操作壓縮了影象解析度。一般語義分割通過將網路的全連線層改為卷積層，獲取得分圖（或稱為概率圖、熱圖），然後對其上取樣、反捲積等操作還原與輸入影象同樣大小。如果壓縮太厲害，還原後分辨率就會比較低，因此我們希望獲得更為稠密（dense）或尺寸更大的得分圖；
第二，對空間變換的不變性限制了模型的精度，網路丟失了很多細節，獲得的概率圖會比較模糊，我們希望獲得更多的細節。在該文章中，提出使用空洞演算法和全連線CRF分別解決這兩個問題。
DeeplabV1方法分為兩步走，
第一步仍然採用了DCNNs得到 coarse score map並插值到原影象大小.
因為縮小8倍的，所以直接放大到原圖是可以接受的。如果是32倍，則需要上取樣（反捲積）。
然後第二步借用fully connected CRF對從FCN得到的分割結果進行細節上的refine。

vgg16:

VGG16中，卷積層的卷積核大小統一為 33 ，步長為 1，最大池化層的池化視窗為 2 * 2 ，步長為2 。VGG16模型有5次池化，縮小 2^5=32 倍
Layer (type) Output Shape Param

        Conv2d-1         [-1, 64, 321, 321]           1,792
        Conv2d-2         [-1, 64, 321, 321]          36,928
     MaxPool2d-3         [-1, 64, 161, 161]               0
        Conv2d-4        [-1, 128, 161, 161]          73,856
        Conv2d-5        [-1, 128, 161, 161]         147,584
     MaxPool2d-6          [-1, 128, 81, 81]               0
        Conv2d-7          [-1, 256, 81, 81]         295,168
        Conv2d-8          [-1, 256, 81, 81]         590,080
        Conv2d-9          [-1, 256, 81, 81]         590,080
    MaxPool2d-10          [-1, 256, 41, 41]               0
       Conv2d-11          [-1, 512, 41, 41]       1,180,160
       Conv2d-12          [-1, 512, 41, 41]       2,359,808
       Conv2d-13          [-1, 512, 41, 41]       2,359,808
    MaxPool2d-14          [-1, 512, 21, 21]               0
       Conv2d-15          [-1, 512, 21, 21]       2,359,808
       Conv2d-16          [-1, 512, 21, 21]       2,359,808
       Conv2d-17          [-1, 512, 21, 21]       2,359,808
    MaxPool2d-18          [-1, 512, 11, 11]               0
       Linear-19                 [-1, 4096]     253,759,488
       Linear-20                 [-1, 4096]      16,781,312
       Linear-21                 [-1, 1000]       4,097,000

=========================================================
deeplap v1在vgg16基礎上做了改動:

後面兩個pool層步長變為為1
conv4,conv5空洞卷積

deeplab系列論文研讀

Deeplab v1:(2015)SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS Deeplab v2:(2016.06)Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and

DeepLab系列語義分割模型論文閱讀筆記

1.DeepLabv2 DeepLabv2是DeepLab系列的早期版本。論文作者注意到，普通的卷積神經網路能夠勝任高級別的圖片分類任務，然而對於影象語義分割這種精細的畫素級分類而言，效果卻不是很好。作者認為，阻礙傳統D

TransReID: Transformer-based Object Re-Identification [2102.04378v2] - 論文研讀系列(3) 個人筆記

TransReID: Transformer-based Object Re-Identification [2102.04378v2] 論文題目：TransReID: Transformer-based Object Re-Identification

行人重識別綜述：《Deep Learning for Person Re-identification: A Survey and Outlook》 2021 - 論文研讀系列(4) 個人筆記

行人重識別綜述：《Deep Learning for Person Re-identification: A Survey and Outlook》 2021 貢獻點：

HRNetv1: Deep High-Resolution Representation Learning for Human Pose Estimation [1902.09212v1] - 論文研讀系列(5) 個人筆記

HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation[1902.09212v1] 論文題目：Deep High-Resolution Representation Learning for Human Pose Estimation

YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss [2204.06806] - 論文研讀系列(6) 個人筆記

YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss [2204.06806]

《MapReduce: Simplified Data Processing on Large Clusters》論文研讀

MapReduce 論文研讀說明：本文為論文《MapReduce: Simplified Data Processing on Large Clusters》的個人理解，難免有理解不到位之處，歡迎交流與指正。

《The Google File System》論文研讀

GFS 論文總結說明：本文為論文《The Google File System》的個人總結，難免有理解不到位之處，歡迎交流與指正。

《The Design of a Practical System for Fault-Tolerant Virtual Machines》論文研讀

VM-FT 論文研讀說明：本文為論文《The Design of a Practical System for Fault-Tolerant Virtual Machines》的個人理解，難免有理解不到位之處，歡迎交流與指正。

《 ZooKeeper : Wait-free coordination for Internet-scale systems 》論文研讀

Zookeeper 研讀說明：本文為論文《 ZooKeeper : Wait-free coordination for Internet-scale systems 》的個人理解，難免有理解不到位之處，歡迎交流與指正。

Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines 論文研讀

摘要本文提出了一種用於訓練支援向量機的新演演算法:序列最小優化演演算法(SMO)。訓練支援向量機需要解決非常大的二次規劃(QP)優化問題。SMO 將這個大的 QP 問題分解為一系列最小的 QP 問題。這些小的 QP 問題可以

語義分割丨DeepLab系列總結「v1、v2、v3、v3+」

花了點時間梳理了一下DeepLab系列的工作，主要關注每篇工作的背景和貢獻，理清它們之間的聯絡，而實驗和部分細節並沒有過多介紹，請見諒。

強化學習論文研讀（四）——Deep Reinforcement Learning with Double Q-Learning

技術標籤：論文研讀深度學習強化學習python演算法 double Q learning + DQN的合成演算法。

Spider資料集論文研讀

過去一些優秀的模型例如seq2seq架構已經能夠實現80%以上的匹配精確度在SQL查詢上，但是這些工作實際上是在做語義匹配而非語義解析。現有的語義解析資料集存在兩個問題，一個是資料集規模太小，無法訓練一個更加現代

DeepLab V3論文閱讀筆記

DeepLab V3 這是2017年發表在CVPR上的文章。相比於V2而言，主要不同之處有三個：引入了Multi-grid、改進了ASPP結構、移除CRFs後處理。

DeepLab 系列總結

本文是基於一篇部落格的學習筆記部落格原文：https://blog.csdn.net/fanxuelian/article/details/85145558

【論文精讀9】MVSNet系列論文詳解-AA-RMVSNet

Override the entrypoint of an image Introduced in GitLab and GitLab Runner 9.4. Read more about the extended configuration options.

Raft論文《 In Search of an Understandable Consensus Algorithm (Extended Version) 》研讀

Raft 論文研讀說明：本文為論文《 In Search of an Understandable Consensus Algorithm (Extended Version) 》的個人理解，難免有理解不到位之處，歡迎交流與指正。

硬幣系列三 | 硬幣自動分類的一個論文復現

書接上回，經過自動檢測和裁剪之後，已經有很多切割整齊的硬幣照片了，再來看看相似檢測的方法。

小白經典CNN論文復現系列（一）：LeNet1989

小白的經典CNN復現系列（一）：LeNet-1989 之前的浙大AI作業的那個系列，因為後面的NLP的東西我最近大概是不會接觸到，所以我們先換一個系列開始更新部落格，就是現在這個經典的CNN復現啦(｡･ω･｡)

deeplab系列論文研讀

相關推薦