ResNet && DenseNet(原理篇)

阿新 • • 發佈：2018-12-21

本篇部落格不講論文的內容，只講主要思想和我自己的理解，細節問題請自行看論文

Introduction

When it comes to neural network design, the trend in the past few years has pointed in one direction: deeper. 但是問題是:

Is learning better networks as easy as stacking more layers ??

讓我們看看在ImageNet上分類winner的網路的深度:

Depth in ImageNet

是不是我們通過簡單的stack的方式把網路的深度增加就可以提高performance?? 答案是NO,存在兩個原因

vanishing/exploding gradients
degradation problem

Residual

其實思想很簡單:

Instead of hoping each few stacked layers directly fit a desired underlying mapping, we explicitly let these layers fit a residual mapping. Formally, denoting the desired underlying mapping as H(x),we let the stacked nonlinear layers fit another mapping of F(x): H(x)-x. The original mapping is recast into F(x)+x.

那麼學習到的F(x)就是殘差.

Shortcut Connections

思想起源於HighWay Nets，shortcut的好處是:

a few intermediate layers are directly connected to auxiliary classifiers for addressing vanishing/exploding gradients.

通過shortcut的方式(Residual)進行stack的nets(ResNet)，可以在加深layers上獲得更好的效果

Residual

對比在ImageNet上的效果:

再來個表格對比，更加明顯:

Result_ImageNet

DenseNet

一個詞概括網路的結構特點就是Dense

，一句話概括的話:

For each layer, the feature maps of all preceding layers are treated as separate inputs whereas its own feature maps are passed on as inputs to all subsequent layers.

結構如下所示:

DemseNet

和ResNet相比，最大的區別在於:

Never combine features through summation before they are passed into a layer, instead we provide them all as separate inputs.

對於此網路來說，很明顯number of connections適合depth成平方的關係，所以問題是當depth很大的時候是不是已經無法訓練了?? 作者是這麼說的:

Although the number of connections grows quadratically with depth, the topology encourages heavy feature reuse.

對比ResNet來說:

Prior work has shown that there is great redundancy within the feature maps of the individual layers in ResNets. In DenseNets, all layers have direct access to every feature map from all preceding layers, which means that there is no need to re-learn redundant feature maps. Consequently, DenseNet layers are very narrow (on the order of 12 feature maps per layer) and only add a small set of feature maps to the “collective knowledge” of the whole network.

在Cifar 10等上做分類的網路模型是:

DenseNet with Cls

結果:

Result_DenseNet

Conclusion

其實無論是ResNet還是DenseNet，核心的思想都是HighWay Nets的思想：就是skip connection,對於某些的輸入不加選擇的讓其進入之後的layer(skip)，從而實現資訊流的整合，避免了資訊在層間傳遞的丟失和梯度消失的問題(還抑制了某些噪聲的產生).

ResNet DenseNet 原理篇

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

ResNet && DenseNet(原理篇)

本篇部落格不講論文的內容，只講主要思想和我自己的理解，細節問題請自行看論文IntroductionWhen it comes to neural network design, the trend in the past few years has pointed in on

【如何快速的開發一個完整的iOS直播app】(原理篇)

事先打開用戶訪問 rtsp 轉換成統計信息轉碼均衡負載適合壓縮前的每秒數據量:幀率X分辨率(單位應該是若幹個字節) 壓縮比:壓縮前的每秒數據量/碼率（對於同一個視頻源並采用同一種視頻編碼算法，則：壓縮比越高，畫面質量越差。）　視頻文件格式：文件的後綴，

第一篇基礎原理篇

ges auto isp com 幫助 1.3 基本 nbsp alt 第一篇基礎原理篇 1.2 程序是如何運行的：首先，進行編程，編程需要編程語言，對絕大部分人來說，使用的編程語言稱為高級程序設計語言，如，c,c++,java等。但是

xgboost入門與實戰（原理篇）

enc 之前 fine 小結附近 step 參考 search line http://blog.csdn.net/sb19931201/article/details/52557382 xgboost入門與實戰（原理篇）前言： xgboost是大規模並行booste

(轉)虛擬路由器冗余協議【原理篇】VRRP詳解

基礎上 vrrp 終端外網 targe 多少 res 虛擬 ini 原文：http://blog.51cto.com/zhaoyuqiang/1166840 為什麽要使用VRRP技術我們知道，為了實現不同子網之間的設備通信，需要配置路由。目前常用的指定路由方法有兩種

Redis的高可用(原理篇)

數據庫領導者 align oss 新的 tcp .com ping 定時 Redis Sentinel實現了Redis的高可用，其基本原理包括：Sentinel的3個定時監控任務，主觀下線和客觀下線，Sentinel領導者選舉，和故障轉移。3個定時監控任務1. 每隔10s

Android四大元件——BroadcastReceiver(原理篇)

前言 Android四大元件——BroadcastReceiver(基礎篇)裡面介紹了BroadcastReceiver相關的基礎知識，本文將從Android 8.0原始碼來分析一下廣播的註冊和接收原理。 BroadcastReceiver的註冊 Android系統中Broa

揭祕Flutter Hot Reload（原理篇）

作者：閒魚技術-君愛 1. 前言閒魚技術團隊在2018年引入Flutter後，越來越多的業務場景在Flutter上使用。Flutter的亞秒級熱過載一直是開發者的神兵利器，提供給開發者快速修改UI，增加功能，修復bug，不需要重新啟動應用，即可看到改動效果。熱過載（HotReload）到底是如何實現

高速路神經網路(Highway Networks)與深度殘差網路(ResNet)的原理和區別

高速路神經網路(Highway Networks)：我們知道，神經網路的深度是其成功的關鍵因素。然而，隨著深度的增加，網路訓練變得更加困難，並且容易出現梯度爆炸或梯度消失的問題。高速路神經網路(Highway Networks)就是為了解決深層網路訓練困難的問題而提出的。在一般的神經

Java 8 之原理篇

1. Lambda實現原理 1.1 例項解析先從一個例子開始 public class LambdaTest { public static void print(String name, Print print){ print.print(name); }

微信技術分享：微信的海量IM聊天訊息序列號生成實踐（演算法原理篇）

1、點評對於IM系統來說，如何做到IM聊天訊息離線差異拉取（差異拉取是為了節省流量）、訊息多端同步、訊息順序保證等，是典型的IM技術難點。就像即時通訊網整理的以下IM開發乾貨系列一樣：《IM訊息送達保證機制實現(一)：保證線上實時訊息的可靠投遞》《IM訊息送達保證機制實現(二

Unity UGUI 原理篇(二)：Canvas Scaler 縮放核心

https://blog.csdn.net/gz_huangzl/article/details/52484611 Canvas Scaler Canvas Scaler是Unity UI系統中，控制UI元素的總體大小和畫素密度的Compoent，Canvas Scaler的縮放比例影響著

（一）理解word2vec：原理篇

為什麼想起來學習word2vec呢？其實之前自己根本沒有接觸過NLP的知識和任務，只是最近嘗試使用了embedding的方法去處理類別特徵和用embedding去做推薦，發現有不錯的效果。同時，自己也感觸到了所掌握知識的匱乏，因此，決定好好學習一下word2vec。最近幾天自己研讀了網

秒懂HTTPS介面（原理篇）

文章目錄前言 HTTPS簡介 HTTPS實現原理大致原理技術細節小故事前言講HTTPS之前，我們先來回顧一下HTTP協議。HTTP是一種超文字傳輸協

Spring學習日記三------AOP原理篇

AOP概論 AOP（Aspect-Oriented Programming，面向切面的程式設計），談起AOP，則一定會追溯到OOP（Object Oriented Programming,面向物件程式設計），因為AOP可以說是對OOP的補充和完善，而這一切的

網路喚醒（WOL）全解指南：原理篇

什麼是網路喚醒網路喚醒（Wake-on-LAN，WOL）是一種計算機區域網喚醒技術，使區域網內處於關機或休眠狀態的計算機，將狀態轉換成引導（Boot Loader）或執行狀態。無線喚醒（Wake-on-Wireless-LAN，WoWLAN）作為 WOL 的補充技術，使用無線網絡卡去喚醒計算機。網路喚醒在一

深度學習優化器Optimizer總結-tensorflow-1原理篇

單純以演算法為論，深度學習從業者的演算法能力可能並不需要太大，因為很多時候，只需要構建合理的框架，直接使用框架是不需要太理解其中的演算法的。但是我們還是需要知道其中的很多原理，以便增加自身的知識強度，而優化器可能正是深度學習的演算法核心官方文件所給的

Android自定義View-Measure原理篇

在自定義View中有時需要測量View的尺寸，因此，瞭解View的Measure過成有助於我們開發自定義View。一、目的：測量View的寬與高在有些情況下，需要多次測量(measure)才能夠最終確定View的寬高（比如父檢視MeasureSpec使用UNSPECI

Android自定義View-Layout原理篇

Android自定義View通常需要經過measure、layout和draw過程，如果你沒有了解過measure過程，可以先看看這篇文章。一、Layout的作用：計算檢視的位置，即Left、Top、Right、Bottom四點的位置二、layout過程：跟measu

ResNet && DenseNet(原理篇)

Introduction

Residual

Shortcut Connections

DenseNet

Conclusion

相關推薦