詳解CNN五大經典模型:Lenet，Alexnet，Googlenet，VGG，DRL

阿新 • • 發佈：2019-01-03

關於卷積神經網路CNN，網路和文獻中有非常多的資料，我在工作/研究中也用了好一段時間各種常見的model了，就想著簡單整理一下，以備查閱之需。

Lenet，1986年
Alexnet，2012年
GoogleNet，2014年
VGG，2014年
Deep Residual Learning，2015年

Lenet

就從Lenet說起，可以看下caffe中lenet的配置檔案（1），可以試著理解每一層的大小，和各種引數。由兩個卷積層，兩個池化層，以及兩個全連線層組成。卷積都是5*5的模板，stride=1，池化都是MAX。下圖是一個類似的結構，可以幫助理解層次結構（和caffe不完全一致，不過基本上差不多）

（1）網址：https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_train_test.prototxt

Alexnet

2012年，Imagenet比賽冠軍的model——Alexnet [2]（以第一作者alex命名）。caffe的model檔案在（2）。說實話，這個model的意義比後面那些model都大很多，首先它證明了CNN在複雜模型下的有效性，然後GPU實現使得訓練在可接受的時間範圍內得到結果，確實讓CNN和GPU都大火了一把，順便推動了有監督DL的發展。

（2）https://github.com/BVLC/caffe/blob/master/models/bvlc_alexnet/deploy.prototxt

模型結構見下圖，別看只有寥寥八層（不算input層），但是它有60M以上的引數總量，事實上在引數量上比後面的網路都大。

這個圖有點點特殊的地方是卷積部分都是畫成上下兩塊，意思是說吧這一層計算出來的feature map分開，但是前一層用到的資料要看連線的虛線，如圖中input層之後的第一層第二層之間的虛線是分開的，是說二層上面的128map是由一層上面的48map計算的，下面同理；而第三層前面的虛線是完全交叉的，就是說每一個192map都是由前面的128+128=256map同時計算得到的。

Alexnet有一個特殊的計算層，LRN層，做的事是對當前層的輸出結果做平滑處理。下面是我畫的示意圖：

前後幾層（對應位置的點）對中間這一層做一下平滑約束，計算方法是：

具體開啟Alexnet的每一階段（含一次卷積主要計算）來看[2][3]：

（1）con - relu - pooling - LRN

具體計算都在圖裡面寫了，要注意的是input層是227*227，而不是paper裡面的224*224，這裡可以算一下，主要是227可以整除後面的conv1計算，224不整除。如果一定要用224可以通過自動補邊實現，不過在input就補邊感覺沒有意義，補得也是0。

（2）conv - relu - pool - LRN

和上面基本一樣，唯獨需要注意的是group=2，這個屬性強行把前面結果的feature map分開，卷積部分分成兩部分做。

（3）conv - relu

（4）conv-relu

（5）conv - relu - pool

（6）fc - relu - dropout

這裡有一層特殊的dropout層，在alexnet中是說在訓練的以1/2概率使得隱藏層的某些neuron的輸出為0，這樣就丟到了一半節點的輸出，BP的時候也不更新這些節點。

（7） fc - relu - dropout

（8）fc - softmax

以上圖借用[3]，感謝。

GoogleNet

googlenet[4][5]，14年比賽冠軍的model，這個model證明了一件事：用更多的卷積，更深的層次可以得到更好的結構。（當然，它並沒有證明淺的層次不能達到這樣的效果）

這個model基本上構成部件和alexnet差不多，不過中間有好幾個inception的結構：

是說一分四，然後做一些不同大小的卷積，之後再堆疊feature map。

計算量如下圖，可以看到引數總量並不大，但是計算次數是非常大的。

VGG

VGG有很多個版本，也算是比較穩定和經典的model。它的特點也是連續conv多，計算量巨大（比前面幾個都大很多）。具體的model結構可以參考[6]，這裡給一個簡圖。基本上組成構建就是前面alexnet用到的。

下面是幾個model的具體結構，可以查閱，很容易看懂。

Deep Residual Learning

這個model是2015年底最新給出的，也是15年的imagenet比賽冠軍。可以說是進一步將conv進行到底，其特殊之處在於設計了“bottleneck”形式的block（有跨越幾層的直連）。最深的model採用的152層！！下面是一個34層的例子，更深的model見表格。

其實這個model構成上更加簡單，連LRN這樣的layer都沒有了。

block的構成見下圖：

總結

OK，到這裡把常見的最新的幾個model都介紹完了，可以看到，目前cnn model的設計思路基本上朝著深度的網路以及更多的卷積計算方向發展。雖然有點暴力，但是效果上確實是提升了。當然，我認為以後會出現更優秀的model，方向應該不是更深，而是簡化。是時候動一動卷積計算的形式了。

詳解CNN五大經典模型:Lenet，Alexnet，Googlenet，VGG，DRL

關於卷積神經網路CNN，網路和文獻中有非常多的資料，我在工作/研究中也用了好一段時間各種常見的model了，就想著簡單整理一下，以備查閱之需。Lenet，1986年Alexnet，2012年GoogleNet，2014年VGG，2014年Deep Residual Learn

[深度學習之CNN] CNN的發展史之LeNet、AlexNet、GoogLeNet、VGG、ResNet

CNN的發展史上一篇回顧講的是2006年Hinton他們的Science Paper，當時提到，2006年雖然Deep Learning的概念被提出來了，但是學術界的大家還是表示不服。當時有流傳的段子是Hinton的學生在臺上講paper時，臺下的機器學習大牛們不屑一顧，質問你們的東西有理

經典深度學習CNN- LeNet、AlexNet、GoogLeNet、VGG、ResNet

參考了： https://www.cnblogs.com/52machinelearning/p/5821591.html https://blog.csdn.net/qq_24695385/article/details/80368618 LeNet

#Deep Learning回顧#之LeNet、AlexNet、GoogLeNet、VGG、ResNet

lenet src get alt article title cep 作用 target #Deep Learning回顧#之LeNet、AlexNet、GoogLeNet、VGG、ResNet 深入淺出——網絡模型中Inception的作用與結構全解析 #Dee

LeNet、AlexNet、GoogLeNet、VGG、ResNetInception-ResNet-v2、FractalNet、DenseNet

2006年Hinton他們的Science Paper再次引起人工神經網路的熱潮，當時提到，2006年雖然Deep Learning的概念被提出來了，但是學術界的大家還是表示不服。當時有流傳的段子是Hinton的學生在臺上講paper時，臺下的機器學習大牛們不屑一顧

公開課 | 詳解CNN-pFSMN模型以及在語音識別中的應用

近年來，在深度學習技術的幫助下，語音識別取得了極大的進展，從實驗室開始走向市場，走向實用化。基於語音識別技術的輸入法、搜尋和翻譯等人機互動場景都有了廣泛的應用。 Librispeech是當前衡量語音識別技術的最權威主流的開源資料集。錯詞率（Worderrorrate，WER

公開課報名 | 詳解CNN-pFSMN模型以及在語音識別中的應用

近年來，在深度學習技術的幫助下，語音識別取得了極大的進展，從實驗室開始走向市場，走向實用化。基於語音識別技術的輸入法、搜尋和翻譯等人機互動場景都有了廣泛的應用。 Librispeech是當前衡量語音識別技術的最權威主流的開源資料集。錯詞率（Worderrorrate，WER）是衡量

C文件操作基礎詳解·········關於fopen，fwrite，，fseek，fgetc的使用。

基礎 user fseek fse app c2c etc 基礎詳解 open 05Y1L7j蝕3UKAhttp://huiyi.docin.com/sina_6355806917 Q托9MCS南9善EU晃喲http://huiyi.docin.com/qfptt159

python3多線程應用詳解（第三卷：圖解多線程中join，守護線程應用）

圖解 pytho inf bubuko post 圖片 clas info blog python3多線程應用詳解（第三卷：圖解多線程中join，守護線程應用）

python裡面的xlrd模組詳解 ♦ python解決open()函式、xlrd.open_workbook()函式檔名包含中文，sheet名包含中文報錯的問題

那我就一下面積個問題對xlrd模組進行學習一下： 1.什麼是xlrd模組？ 2.為什麼使用xlrd模組？ 3.怎樣使用xlrd模組？ 1.什麼是xlrd模組？　　♦python操作excel主要用到xlrd和xlwt這兩個庫，即xlrd是讀excel，xlwt是寫ex

epoll原理詳解及epoll反應堆模型

設想一個場景：有100萬用戶同時與一個程序保持著TCP連線，而每一時刻只有幾十個或幾百個TCP連線是活躍的(接收TCP包)，也就是說在每一時刻程序只需要處理這100萬連線中的一小部分連線。那麼，如何才能高效的處理這種場景呢？程序是否在每次詢問作業系統收集有事件發生的TCP連線時，把這

ZCU106開發詳解之PS側SD卡FAT32檔案系統（高階外設，大神之路）

感謝大家的等待！！本週將四連發，我們團隊也將盡自己能力為大家答疑解惑！！！如果有朋友想了解更多相關資訊請加QQ群836535064。我們會將相關資料釋出於QQ群中。歡迎有需求的朋友深度合作。本團隊專注於高速視訊編解碼，高速訊號採集處理，高速異構平臺，高速儲存方案提

詳解spring中的事務管理（程式設計式的事務管理，宣告式的事務管理）

spring提供的事務管理API 1. PlatformTransactionManager:平臺事務管理器. commit(TransactionStatus status) getTransaction(TransactionDefinition de

JVM 之（14）類載入器詳解和雙親委派模型

類載入器虛擬機器設計團隊把類載入階段中“通過一個類的全限定名來獲取描述此類的二進位制位元組流”這個動作放到Java虛擬機器外部去實現，以便讓應用程式自己決定如何去獲取所需要的類。實現這個動作的

List、Set、Map集合最常用六個子類及它們之間的區別詳解（含經典面試題）

集合：在程式設計中，我們需要管理很多物件集，比如某班全部的同學資訊，某個公司的人員資料等等。JAVA集合就是提供某種資料結構的支援，即存放物件，並讓這些物件按照某種資料結構存放。集合與陣列的區別： 1. 陣列存放的元素個數是在定義陣列時固定的。

064：ORM查詢條件詳解-in和關聯模型查詢

ORM查詢條件詳解-in和關聯模型查詢： in：提取那些給定的 field 的值是否在給定的容器中。容器可以為 list 、 tuple 或者任何一個可以迭代的物件，包括 QuerySet 物件。示例程式碼如下： result = Article.objects.filter(id__in=[1,4

ORACLE PL/SQL程式設計詳解之三：PL/SQL流程控制語句(不給規則，不成方圓)

DECLARE v_first_name employees.first_name%TYPE; v_job_id employees.job_id%TYPE; v_salary employees.salary%TYPE; v_sal_raise NUMBER(3,2); B

詳解CSS3彈性盒模型---Flexbox

Flexbox 佈局它是CSS3新增的一種佈局模式。可以很方便地用來改善動態或未知大小的元素的對齊，方向和順序等等。flex容器的主要特性是它可以調整其子元素的寬度或高度去填充可用的空白區，以最優的方式達到相容不同螢幕大小。 Flexbox是佈局模組，而不是一

詳解CNN中的stride 和 padding 到底是怎麼計算的

平時不注意的細節，別人一問的時候就會很懵逼，所以認真對待每一個引數。先看一下 tensorflow中自帶的卷積操作是什麼樣子的呢？ https://tensorflow.google.cn/api_docs/python/tf/nn/conv2d tf.nn.conv

Java網絡編程和NIO詳解3：IO模型與Java網絡編程模型

用戶分組重新 spa 編譯 linux操作計算再次簡化 Java網絡編程和NIO詳解3：IO模型與Java網絡編程模型基本概念說明用戶空間與內核空間現在操作系統都是采用虛擬存儲器，那麽對32位操作系統而言，它的尋址空間（虛擬存儲空間）為4G（2的32次方）。