Multi-Scale Context Aggregation by Dilated Convolution訓練記錄

阿新 • • 發佈：2019-01-20

讀完文章後，覺得應該網路框架類似FCN，卻可以達到更好的效果。該網路的準確度和花費時間都應該好於FCN-8S，打算funetune一個自己的模型。

首先從測試開始，對於predict.py，我認真研究了他的程式碼，我來具體說一下他的程式碼結構：首先讀入圖片後，得到deploy.prototxt中輸入圖片的大小，以“dilation10_cityscapes_deploy.prototxt”為例，他的網路結構輸入大小是1398*1398，prop輸出的大小是1024*1024，差了兩倍的margin，這些margin會通過卷積操作卷積沒了。cityscape圖片的大小是2048*1024的，首先對圖片進行打pad，就是邊界擴張操作（copyMakeBorder），兩邊都加上margin大小的邊界，得到2420*1396大小的，然後計算滑動窗所需要滑動的次數，滑動窗的大小是1396*1396的。每次擷取1396*1396大小的圖片，如果發現圖片某一軸上小於輸入大小1396，那麼加pad到1396。然後把這個1396*1396作為輸入到網路中，輸出1024*1024。最後輸出的兩個概率結果合併得到最終的結果。

如果是其他的prototxt，比如camvid，那麼他是沒有加upsampling的，所以輸出是（輸入大小-2×margin）/8，因此zoom=8，需要通過util.py對影象進行雙線性差值來放大8倍。

在訓練過程中，我一直有兩個疑問，一是在不加入upsampling的情況下，輸入的label大小怎麼和輸出的label大小對應上的，因為輸入是輸出的8倍，我看了原始碼image_label_data_layer.cpp中應該有將輸入的label放縮到原來的1/8，這樣可以加快方向傳播的速度。而是這個crop_size的大小是怎麼定的，在文章給的caffe原始碼中，padimage函式中" if (image.rows >= min_size && image.cols >= min_size) {return image; }"其中crop_size主要是對原圖進行打pad處理，所以一般crop_size要比輸入圖片的長或寬大，這樣才能打pad。還有一點就是(crop_size-2*magin)一定要倍8整除。比如cityscape的1396-2*186=1024，1024是可以被8整除的，camvid中的1100和900同樣如此。
還有文章給的模型一共有三個“front-end,context,joint”,其中主要是front-end模型，context主要是加了上下文的資訊，joint是將front-end和context結合起來。
我自己使用的cityscape進行訓練的，不過我沒有用原圖，我縮小到原來的1/2，所以我重新定義了crop_size，去掉了upsamping（原作者提到，之所以在cityscape上使用usampling主要是因為cityscape的解析度太高原話為“I added an upconv in training cityscapes models because the high resolution of cityscapes data”）。
至於原始碼中有沒有對輸入的label進行放縮將後續更新。

更新一下，今天找到可能是原始碼中的對輸入label進行縮放的程式碼：

SampleScale(&cv_img, &cv_label);

template<typename Dtype>

void ImageLabelDataLayer<Dtype>::SampleScale(cv::Mat *image, cv::Mat *label) {

ImageLabelDataParameter data_param =

this->layer_param_.image_label_data_param();

if (!data_param.rand_scale 
())return;

double scale = std::uniform_real_distribution<double>(

data_param.min_scale(), data_param.max_scale())(*rng_);

cv::Sizezero_size(0,0);

cv::resize(*label, *label,cv::Size(0,0),

scale, scale, cv::INTER_NEAREST);

if (scale >1) {

cv::resize(*image, *image, zero_size, scale, scale, cv::INTER_CUBIC);

}else {

cv::resize(*image, *image, zero_size, scale, scale, cv::INTER_AREA);

}

其中

cv::resize(*label, *label,cv::Size(0,0),

scale, scale, cv::INTER_NEAREST);應該就是對圖片進行了放縮操作。

但是還是沒有弄懂GetLabelSlice這個函式是什麼意義，不知道有沒有大神可以解釋一下。

今天終於證實了我的猜測，我通過計算模型的準確率得到的label值是通過縮小了８倍大小的圖片，也就是說，在data層作者加入了放縮程式，大小就是stride.

Multi-Scale Context Aggregation by Dilated Convolution訓練記錄

Multi-Scale Context Aggregation by Dilated Convolution訓練記錄

論文閱讀筆記二十：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS（ICRL2016）

膨脹卷積——《MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS》

《Context Contrasted Feature and Gated Multi-Scale Aggregation for Scene Segmentation》論文閱讀

論文Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks實現之網路模型搭建及訓練

【Person Re-ID】Person Re-Identification by Deep Learning Multi-Scale Representations

AtrousConvolution和dilated convolution

使用bedtools提取vcf多個位置的變異（extract multi-region of genotypes by bedtools）

[翻譯] 擴張卷積 (Dilated Convolution)

關於dilated convolution(空洞卷積)感受野的計算

Multi-Scale Guided Concurrent Reflection Removal Network

論文Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks實現之資料集製作

MSCNN論文解讀-A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

論文閱讀筆記《Gated Context Aggregation Network for Image Dehazing and Deraining》WACV19

「Medical Image Analysis」Note on Multi-scale Densely Connected U-Net

語義分割之Dilated Convolution個人總結

【論文閱讀筆記】MULTI-SCALE DENSE NETWORKS FOR RESOURCE EFFICIENT IMAGE CLASSIFICATION

【YOLT】《You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery》

文獻閱讀:Multi-scale Residual Network for Image Super-Resolution

《DARK IMAGE ENHANCEMENT BASED ON PAIRWISE TARGET CONTRAST AND MULTI-SCALE DETAIL BOOSTING》 C++復現

Multi-Scale Context Aggregation by Dilated Convolution訓練記錄

相關推薦