Residual Network Research

阿新 • • 發佈：2018-12-21

DenseNet: Densely Connected Residual Network

解決的問題：

隨著網路層數加深梯度消失的問題：

As information about the input or gradient passes through many layers, it can vanish and “wash out” by the time it reaches the end (or beginning) of the network.
原來ResNet中有很多層的貢獻很少，在訓練的時候可以隨機去掉：

Recent variations of ResNets show that many layers contribute very little and can in fact be randomly dropped during training.

新的結構：

一個L層傳統的卷積神經網路只有L個連線——每一層和它的下一層之間有一個連線。而這篇文章提出的Dense Convolutional Network (DenseNet) 有 $\frac{L(L-1)}{2}$ 個連線。對每一層來說前面所有層的feature map都是它的輸入，而它的輸出的feature map又是後面所有層的輸入。 5-layer dense block 為什麼有很好的效果？ 文章中是這樣解釋的：

Each layer has direct access to the gradients from the loss function and the original input signal, leading to an implicit deep supervision.

這句話大概就是在說每一層都能獲得來次損失函式的梯度資訊以及輸入的原始資訊，可以看成是一個隱式的監督的網路。 優點：

減輕了梯度消失 (alleviate the vanishing-gradient problem)
增強了特徵的傳遞 (strength feature propagation)
更有效的利用了特徵資訊 (encourage feature reuse)
一定程度上減少了引數數量 (substantially reduce number of parameters)

DenseNet

一個L層的神經網路，每一層都可以看做是一個非線性的對映 $H_{l}(\cdot)$

H_{l} (\cdot)

，

H_{l}(\cdot)

可以是一系列函式的組合例如BN、ReLU、Pooling、Convolution，用

X_l

表示

l^{th}

層的輸出，則可以用下面三個式子分別表示傳統的卷積神經網路，原始的ResNet和DenseNet：傳統的卷積神經網路:

X_\mathscr{l}=H_\mathscr{l}(X_\mathscr{l-1})

ResNet:

X_\mathscr{l}=H_\mathscr{l}(X_\mathscr{l-1})+X_\mathscr{l-1}

DenseNet:

X_\mathscr{l}=H_\mathscr{l}([X_\mathscr{0},X_\mathscr{1},...,X_\mathscr{l-1}])

[X_\mathscr{0},X_\mathscr{1},...,X_\mathscr{l-1}]

表示

0,...,l-1

層的拼接。從上面的式子還可以看出ResNet和DenseNet的一個區別：ResNet是將不同層的輸出加和作為下一層的輸入，而DenseNet是拼接。至於為什麼，文章中是這麼說的：

However, the identity function and output of $H_l$ are combined by summation, which may impede the information flow in the network.

大意是說加和會影響資訊在神經網路的傳遞（？？？）。 Composite function 對於上面的複合函式 $H_l$ ，在這篇文章中是這樣定義的： $H_l$ 是三個連續操作的符合，這三個操作依次是BN、ReLU、3x3 convolution。 Pooling layers 神經網路最重要的一點就是進行下采樣來改變feature-map的大小，在DenseNet並不會改變feature-map的大小。所以，為了實現下采樣作者將這個網路分成多個不同的密集連線的dense block，在dense block之間添加了一個transition layer來做卷積和池化。這篇文章中作者使用的是1x1的卷積層接一個2x2的平均池化。 Growth rate 如果每個 $H_l$ 產生 $k$ 個feature-maps，那麼第 $l$ 層就會有 $k_0+k\times(l-1)$ 個feature-maps作為輸入。很重要的一點是，與一般的神將網路結構相比，DenseNet的每一層可以很窄，例如讓 $k=12$ 。 文章將超引數 $k$ 稱為 growth rate Bottleneck layers 儘管每層只輸出 $k$ 個feature-maps，後面的層還是會有很多的輸入，有文章說到 $1\times1\ convolution$ 可以被用作 $bottleneck\ layer$ 來減少輸入的feature-maps的數量。所以作者設計了一種新的 $H_l$ ： $BN-ReLU-Conv(1\times1)-BN-ReLU-Conv(3\times3)$ ，將其稱為DenseNet-B。 Compression 為了進一步壓縮feature-map的數量，作者還用transition layer來減少輸入進dense block的feature-map的數量。作者設計了一個超引數 $\theta,\ 0\lt\theta\le1$ 來控制壓縮的力度：如果一個dense block輸出了m個feature-maps，則可以通過它後面的transition layer把feature-map的數目減少到 $\lfloor\theta m\rfloor$ 。當同時使用了bottleneck 和 $\theta\lt1$ 的transition layer 時，作者將這樣的模型稱為 DenseNet-BC. 在這裡插入圖片描述

Experiments

下表是在三個資料集（C10，C100，SVHN）上和其他演算法的對比結果。ResNet[11]就是kaiming He的論文。DenseNet-BC的網路引數和相同深度的DenseNet相比確實減少了很多，引數減少除了可以節省記憶體，還能減少過擬合。這裡對於SVHN資料集，層數更多的DenseNet-BC的結果並沒有層數少的DenseNet (k = 24) 的效果好，作者認為原因主要是SVHN這個資料集相對簡單，更深的模型容易過擬合。在表格的倒數第二個區域的三個不同深度L和k的DenseNet的對比可以看出隨著L和k的增加，模型的效果是更好的。在這裡插入圖片描述

下圖是DenseNet-BC和ResNet在Imagenet資料集上的對比，左邊那個圖是引數複雜度和錯誤率的對比，右邊是flops和錯誤率的對比。在這裡插入圖片描述

下圖中，左邊的圖表示不同型別DenseNet的引數數量和錯誤率的對比。中間的圖表示DenseNet-BC和ResNet在引數數量和錯誤率的對比，相同錯誤率下，DenseNet-BC的引數複雜度要小很多。右邊的圖也是表達DenseNet-BC-100只需要很少的引數就能達到和ResNet-1001相同的結果。在這裡插入圖片描述

Residual Network Research

DenseNet: Densely Connected Residual Network 解決的問題：隨著網路層數加深梯度消失的問題： As information about the input or gradient passes through ma

Residual Network Research: Wide Residual Networks

WRNs:Wide Residual Networks Abstract 深度殘差網路能夠讓我們將神經網路的層數增加到幾千層仍然能夠獲得性能的提升。但是，準確率每提升一個百分點網路的層數幾乎要增加一倍，因此訓練非常深的殘差網路存在降低特徵重用的問題，這使得這些網

學習筆記之——基於pytorch的殘差網路（deep residual network）

本博文為本人學習pytorch系列之——residual network。前面的博文（學習筆記之——基於深度學習的分類網路）也已經介紹過ResNet了。ResNet是2015年的ImageNet競賽的冠軍，由微軟研究院提出，通過引入residual block能夠成功地訓練高達

殘差網絡(Residual Network)

現象希望 image 得到問題過擬合發現學習初始一、背景 1）梯度消失問題我們發現很深的網絡層，由於參數初始化一般更靠近0，這樣在訓練的過程中更新淺層網絡的參數時，很容易隨著網絡的深入而導致梯度消失，淺層的參數無法更新。可以看到，假設現在需要更新b1，w

殘差網路(Residual Network)

一、背景 1）梯度消失問題我們發現很深的網路層，由於引數初始化一般更靠近0，這樣在訓練的過程中更新淺層網路的引數時，很容易隨著網路的深入而導致梯度消失，淺層的引數無法更新。可以看到，假設現在需要更新b1，w2,w3,w4引數因為隨機初始化偏向於0，通過鏈式求導我們會發現，w1w2w3相乘會得到更

【文章閱讀】【超解像】--Image Super-Resolution via Deep Recursive Residual Network

【文章閱讀】【超解像】–Image Super-Resolution via Deep Recursive Residual Network 論文連結：http://cvlab.cse.msu.edu/pdfs/Tai_Yang_Liu_CVPR2017.pdf caffe code

文獻閱讀:Fast, Accurate, and Lightweight Super-Resolution with Cascading Residual Network

文章地址：https://arxiv.org/abs/1803.08664 作者的專案地址：CARN-Pytorch 1 簡單介紹作者說目前的主流的方法都是奔著效能表現去的，並沒有考慮實際應用的情況。所以作者在本篇文章中提出一種快速，

文獻閱讀:Multi-scale Residual Network for Image Super-Resolution

文章地址： http://openaccess.thecvf.com/content_ECCV_2018/html/Juncheng_Li_Multi-scale_Residual_Network_ECCV_2018_paper.html 作者的專案地址： MSRN-PyTorch 1

Deep Residual Network學習(二)

通過上次在Cifar10上覆現ResNet的結果，我們得到了上表，最後一欄是論文中的結果，可以看到已經最好的初始化方法(MSRA)已經和論文中的結果非常接近了！今天我們完全按照論文中的實驗環境，復現一下ResNet論文中的結果。上次的論文復現主要和原文中有兩點不

論文閱讀筆記之——《DN-ResNet: Efficient Deep Residual Network for Image Denoising》

本文提出的DN-ResNet，就是a deep convolutional neural network (CNN) consisting of several residual blocks (ResBlocks).感覺有點類似於SRResNet的思路。並且對於訓練這個作者所提出的網路，作者還

[caffe]深度學習之MSRA影象分類模型Deep Residual Network(深度殘差網路)解讀

一、簡介 MSRA的深度殘差網路在2015年ImageNet和COCO如下共5個領域取得第一名：ImageNet recognition, ImageNet detection, ImageNet localization, COCO detection,

Deep Residual Network學習(一)

回顧去年的DCNN成果和深度學習發展，就必然會提及到到Kaiming He的深度殘差網路 (https://arxiv.org/abs/1512.03385)。這不僅是因為ResNet一舉拿到了CV下多個比賽專案的冠軍，更重要的是這一結構解決了訓練極深網路時的degrada

《17.Residual Attention Network for Image Classification》

動機深度學習中的Attention，源自於人腦的注意力機制，當人的大腦接受到外部資訊，如視覺資訊、聽覺資訊時，往往不會對全部資訊進行處理和理解，而只會將注意力集中在部分顯著或者感興趣的資訊上，這樣有助於濾除不重要的資訊，而提升資訊處理的效率。最早將Attention利用

【Network Architecture】Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning（轉） Feature Extractor[Inception v4]

文章來源： https://www.cnblogs.com/shouhuxianjian/p/7786760.html Feature Extractor[Inception v4] 0. 背景隨著何凱明等人提出的ResNet v1，google這邊坐

Residual Network Research

DenseNet: Densely Connected Residual Network

解決的問題：

新的結構：

DenseNet

Experiments

Residual Network Research

Residual Network Research: Wide Residual Networks

學習筆記之——基於pytorch的殘差網路（deep residual network）

殘差網絡(Residual Network)

殘差網路(Residual Network)

【文章閱讀】【超解像】--Image Super-Resolution via Deep Recursive Residual Network

文獻閱讀:Fast, Accurate, and Lightweight Super-Resolution with Cascading Residual Network

文獻閱讀:Multi-scale Residual Network for Image Super-Resolution

Deep Residual Network學習(二)

論文閱讀筆記之——《DN-ResNet: Efficient Deep Residual Network for Image Denoising》

[caffe]深度學習之MSRA影象分類模型Deep Residual Network(深度殘差網路)解讀

Deep Residual Network學習(一)

《17.Residual Attention Network for Image Classification》

【Network Architecture】Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning（轉） Feature Extractor[Inception v4]

Residual Dense Network for Image Super-Resolution 程式碼詳解

residual attention network 論文解讀

論文筆記：Residual Attention Network for Image Classification

Residual Attention Network for Image Classification, cvpr17

Learning Attentions: Residual Attentional Siamese Network for High Performance 論文讀後感

POJ3694-Network(Tarjan縮點+LCA)

Residual Network Research

DenseNet: Densely Connected Residual Network

解決的問題：

新的結構：

DenseNet

Experiments

相關推薦