Multi-Scale Context Aggregation by Dilated Convolution訓練記錄
讀完文章後,覺得應該網路框架類似FCN,卻可以達到更好的效果。該網路的準確度和花費時間都應該好於FCN-8S,打算funetune一個自己的模型。
首先從測試開始,對於predict.py,我認真研究了他的程式碼,我來具體說一下他的程式碼結構:首先讀入圖片後,得到deploy.prototxt中輸入圖片的大小,以“dilation10_cityscapes_deploy.prototxt”為例,他的網路結構輸入大小是1398*1398,prop輸出的大小是1024*1024,差了兩倍的margin,這些margin會通過卷積操作卷積沒了。cityscape圖片的大小是2048*1024的,首先對圖片進行打pad,就是邊界擴張操作(copyMakeBorder),兩邊都加上margin大小的邊界,得到2420*1396大小的,然後計算滑動窗所需要滑動的次數,滑動窗的大小是1396*1396的。每次擷取1396*1396大小的圖片,如果發現圖片某一軸上小於輸入大小1396,那麼加pad到1396。然後把這個1396*1396作為輸入到網路中,輸出1024*1024。最後輸出的兩個概率結果合併得到最終的結果。
如果是其他的prototxt,比如camvid,那麼他是沒有加upsampling的,所以輸出是(輸入大小-2×margin)/8,因此zoom=8,需要通過util.py對影象進行雙線性差值來放大8倍。
在訓練過程中,我一直有兩個疑問,一是在不加入upsampling的情況下,輸入的label大小怎麼和輸出的label大小對應上的,因為輸入是輸出的8倍,我看了原始碼image_label_data_layer.cpp中應該有將輸入的label放縮到原來的1/8,這樣可以加快方向傳播的速度。而是這個crop_size的大小是怎麼定的,在文章給的caffe原始碼中,padimage函式中" if (image.rows >= min_size && image.cols >= min_size) {return image; }"其中crop_size主要是對原圖進行打pad處理,所以一般crop_size要比輸入圖片的長或寬大,這樣才能打pad。還有一點就是(crop_size-2*magin)一定要倍8整除。比如cityscape的1396-2*186=1024,1024是可以被8整除的,camvid中的1100和900同樣如此。還有文章給的模型一共有三個“front-end,context,joint”,其中主要是front-end模型,context主要是加了上下文的資訊,joint是將front-end和context結合起來。
我自己使用的cityscape進行訓練的,不過我沒有用原圖,我縮小到原來的1/2,所以我重新定義了crop_size,去掉了upsamping(原作者提到,之所以在cityscape上使用usampling主要是因為cityscape的解析度太高原話為“I added an upconv in training cityscapes models because the high resolution of cityscapes data”)。
至於原始碼中有沒有對輸入的label進行放縮將後續更新。
更新一下,今天找到可能是原始碼中的對輸入label進行縮放的程式碼:
SampleScale(&cv_img, &cv_label);
template<typename Dtype> |
void ImageLabelDataLayer<Dtype>::SampleScale(cv::Mat *image, cv::Mat *label) { |
ImageLabelDataParameter data_param = |
this->layer_param_.image_label_data_param(); |
if (!data_param.rand_scale |
double scale = std::uniform_real_distribution<double>( |
data_param.min_scale(), data_param.max_scale())(*rng_); |
cv::Sizezero_size(0,0); |
cv::resize(*label, *label,cv::Size(0,0), |
scale, scale, cv::INTER_NEAREST); |
if (scale >1) { |
cv::resize(*image, *image, zero_size, scale, scale, cv::INTER_CUBIC); |
}else { |
cv::resize(*image, *image, zero_size, scale, scale, cv::INTER_AREA); |
} |
其中
cv::resize(*label, *label,cv::Size(0,0), |
但是還是沒有弄懂GetLabelSlice這個函式是什麼意義,不知道有沒有大神可以解釋一下。
今天終於證實了我的猜測,我通過計算模型的準確率得到的label值是通過縮小了8倍大小的圖片,也就是說,在data層作者加入了放縮程式,大小就是stride.
相關推薦
Multi-Scale Context Aggregation by Dilated Convolution訓練記錄
讀完文章後,覺得應該網路框架類似FCN,卻可以達到更好的效果。該網路的準確度和花費時間都應該好於FCN-8S,打算funetune一個自己的模型。 首先從測試開始,對於predict.py,我認真研究了他的程式碼,我來具體說一下他的程式碼結構:首先讀入圖片後,得到deplo
論文閱讀筆記二十:MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS(ICRL2016)
論文源址:https://arxiv.org/abs/1511.07122 tensorflow Github:https://github.com/ndrplz/dilation-tensorflow 摘要 該文提出了空洞卷積模型,在不降低解析
膨脹卷積——《MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS》
看這篇論文主要是想了解膨脹卷積,搜出這篇,看起來貌似比deeplab簡單一些,於是以此入手。這篇論文把膨脹卷積的計算原理講的很清楚,但是作用和產生的緣由的話還是deeplab的論文更容易懂,deeplab裡面叫"hole algorithm"。 1. dense predi
《Context Contrasted Feature and Gated Multi-Scale Aggregation for Scene Segmentation》論文閱讀
動機 第一個工作的動機,(context contrasted local (CCL) model ) 作者認為獲得有判別力的語義特徵以及多尺度融合是提升效能的關鍵; 上下文通常具有平滑的表示,並且由顯著物件的特徵支配,這對於標記不顯眼的物件和東西是
論文Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks實現之網路模型搭建及訓練
環境: Python3.6 Tensorflow-GPU 1.8.0 本文所實現的網路模型是在https://blog.csdn.net/liuchonge/article/details/64440110的基礎上搭建的,不同的是為了應對loss為NAN的情況,本文在每一層卷積的後面
【Person Re-ID】Person Re-Identification by Deep Learning Multi-Scale Representations
Introduction 本文主要的考慮是:目前所有re-id的方法,不管是不是基於CNN的,第一步都是將影象resize到統一大小然後再來提取特徵。這種做法會模糊掉影象在不同尺度上的顯著性特徵,因此作者認為這樣的方法不是最優的,本文提出了一種在多尺度上提
AtrousConvolution和dilated convolution
一個 .cn 世界 span 分享 ras 9.png blog png 唉,真煩哪些炒概念的,把整個世界都給弄亂了。 這裏說一下dilated convolution和atrous convolution。 這兩種是一樣的,至少keras源碼中是一樣的。在keras中調用
使用bedtools提取vcf多個位置的變異(extract multi-region of genotypes by bedtools)
提取 targe intersect doc pre orm mut 生成 dto 1、下載安裝bedtools; 2、生成bed文件;標準的bed文件格式如下: chr7 127471196 127472363 Pos1 0 + 127471196
[翻譯] 擴張卷積 (Dilated Convolution)
輸入 tar ren span com tro and ted 情況 英文原文: Dilated Convolution 簡單來說,擴張卷積只是運用卷積到一個指定間隔的輸入.按照這個定義,給定我們的輸入是一個2維圖片,擴張率 k=1 是通常的卷積,k=2 的意思是每
關於dilated convolution(空洞卷積)感受野的計算
關於感受野的定義請參考:https://www.jianshu.com/p/2b968e7a1715 定義:感受野用來表示網路內部的不同神經元對原影象的感受範圍的大小,或者說,convNets(cnn)每一層輸出的特徵圖(feature map)上的畫素點在原始影象上對映的區域大小。
Multi-Scale Guided Concurrent Reflection Removal Network
gradient inference network(GiN):輸入是4通道張量,它是輸入混合影象及其對應梯度的組合. The image inference network (IiN):以混合影象為輸入,提取描述全域性結構和高層語義資訊的背景特徵表示來估計B和R。 GIN
論文Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks實現之資料集製作
1.資料集 本文采用的是STS資料集,如下圖所示,包括所有的2012-2016年的資料,而all資料夾包含2012-2015的所有資料。 每一個檔案的具體資料如下所示,每一行為一個三元組:<相似性得分,句子1,句子2>. 在實現時將all資料夾中的所有資料當作
MSCNN論文解讀-A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
多尺度深度卷積神經網路進行快速目標檢測: 兩階段目標檢測器,與faster-rcnn相似,分為an object proposal network and an accurate detection network. 文章主要解決的是目標大小不一致的問題,尤其是對小目標的檢測,通過多
論文閱讀筆記《Gated Context Aggregation Network for Image Dehazing and Deraining》WACV19
輸出 每一個 為什麽 作用 導致 作者 ont 而不是 簡單的 目錄: 相關鏈接 方法亮點 方法細節 實驗結果 總結與收獲 相關鏈接: 論文:https://arxiv.org/abs/1811.08747 源碼:暫無 方法亮點: 提出端到端的去霧網絡,不
「Medical Image Analysis」Note on Multi-scale Densely Connected U-Net
QQ Group: 428014259 Sina Weibo:小鋒子Shawn Tencent E-mail:[email protected] http://blog.csdn.net/dgyuanshaofeng/article/details/84843159 [1]
語義分割之Dilated Convolution個人總結
1. 空洞卷積 如圖,表示dilation=2時的空洞卷積。 空洞卷積的好處: (1) 正常情況下,為了獲得較大的感受野我們可以選擇大卷積核或者進行pooling操作。選擇大卷積核會增加引數量,而pooling會損失影象的解析度資訊。因此,選擇空洞卷積既可以獲
【論文閱讀筆記】MULTI-SCALE DENSE NETWORKS FOR RESOURCE EFFICIENT IMAGE CLASSIFICATION
Gao Huang(Cornell University), ICLR 2018 best Papers 文章連結:https://arxiv.org/pdf/1703.09844.pdf 程式碼連結:https://github.com/gaohuang/MSDNet
【YOLT】《You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery》
目錄 本文主要講解了一篇基於yolo演算法進行改進的高效衛星影象目標檢測演算法,主要針對高解析度輸入和密集小物體進行了優化。 1 Motivation Detection of small objects in large swa
文獻閱讀:Multi-scale Residual Network for Image Super-Resolution
文章地址: http://openaccess.thecvf.com/content_ECCV_2018/html/Juncheng_Li_Multi-scale_Residual_Network_ECCV_2018_paper.html 作者的專案地址: MSRN-PyTorch 1
《DARK IMAGE ENHANCEMENT BASED ON PAIRWISE TARGET CONTRAST AND MULTI-SCALE DETAIL BOOSTING》 C++復現
論文連結 請google,一篇IEEE的論文,在查詢提升影象細節的時候看到一個部落格上對這個論文介紹,我下載不了論文,所幸那個博主給了論文的主要部分的圖片,可以到這個部落格檢視:https://blog.csdn.net/q781045982/article/details/7863