論文筆記：VGG模型

阿新 • • 發佈：2019-01-17

本篇博文主要是閱讀Karen Simonyan的論文《VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION》的一些筆記，博文中的圖表也均來自論文原文。詳細的內容還是看論文的好。。。

摘要

在本文中，我們研究了在大規模影象識別任務中卷積神經網路的深度對準確率的影響。我們主要的貢獻是利用帶有很小卷積核（3*3）的網路結構對逐漸加深的網路進行評估，結果表明通過加深網路深度至16-19層可以極大地改進前人的網路結構。這些發現也是我們參加2014年ImageNet比賽的基礎，並且在這次比賽中，我們分別在定位和分類跟蹤任務中取得第一名和第二名。同時我們的模型對其他資料集也有很好的泛化能力，在這些資料上取得了最好的結果。為了促進計算機視覺領域深度視覺模型的進一步研究，我們公開了兩個表現最好的卷積神經網路模型。

網路結構

模型結構中的一些細節說明：

輸入均是裁剪過的224*224大小的RGB圖片，並經過去均值處理。
卷積層中卷積核大小均是3*3，步長為1（stride = 1），補1圈0 (pad = 1)。
池化層均採用最大池化（max pooling），但不是所有的卷積層都有池化層，池化視窗為2*2，步長為2，即採用的是不重疊池化。
所有隱含層後都配有有ReLU層
引數數量（見下表）：

選用3*3卷積核代替大卷積核的好處：

2個3*3的卷積核串聯和用一個5*5的卷積核有相同的感知野，3個3*3的卷積核串聯和用一個7*7的卷積核有相同的感知野。但前者相比於後者有更少的引數。

舉個簡單的例子，假設輸入特徵圖（feature map）的大小為32*32*3（寬 * 高 * 通道數）：
case 1: 採用1個5*5的卷積核，stride = 1, pad=2, 輸出特徵圖的大小等於：（32+2∗pad−5）/1+1=32，引數的數量為3∗（5∗5）=75個（每個通道25個，共3個通道）；
case 2: 採用2個3*3的卷積核，stride = 1, pad=1, 第一次卷積後特徵圖大小等於：(32+2∗pad−3)/1+1=32，第二次卷積輸出特徵圖的大小等於：（32+2∗pad−3）/1+1=32，總引數的數量為2∗3∗（3∗3）=54個（每個通道9個，共3個通道，2個卷積層），比單獨使用一個5*5的卷積核少了21個。

模型訓練

除了從多尺度的訓練影象中進行取樣，其他基本和AlexNet模型的訓練方法一致：
- 資料集擴充（data aumentation）: 隨機裁剪（crop）、水平翻轉（horizontal flips）、RGB顏色變化（color shift）
- 訓練採用小批量梯度下降法加上動量（mini-batch stochastic gradient descent + momentum）,batch size = 256, momentum = 0.9;
- 正則化方法採用weight decay（L2罰函式乘子設為0.0005）和dropout（丟棄率設為0.5）；
- 初始學習率（learning rate）為0.001，當在驗證集上的準確率不再提高是學習率變為原來的0.1倍，一共降低了3次；
- 總迭代次數為370k (74 epochs), epochs指訓練集完整遍歷的次數
- 採用2種設定訓練影象大小方法：（1）固定訓練集圖片大小，如256*256和384*384；（2）多尺度訓練，讓訓練集的大小在一個範圍內隨機變化，如S∈[Smin,Smax]=[256,512]，具體可以看論文。

模型測試

在測試階段，首先選定一個測試集圖片大小Q，然後在這個圖片上應用訓練好的卷積網路，在最後一個卷積階段產生未經池化的特徵圖，然後利用滑動視窗的方法，每種池化視窗產生一個分類輸出，然後融合各個結果，得到最終分類。這樣做相對於取10個圖片塊的好處是更加高效，因為只需計算一次卷積過程。

參考文獻

Karen Simonyan, Andrew Zisserman. very deep convolutional networks for large-scale image recognition.

論文筆記：VGG模型

論文筆記：雙線性模型《Bilinear CNN Models for Fine-Grained Visual Recognition》

雙線性模型是2015年提出的一種細粒度影象分類模型。該模型使用的是兩個並列的CNN模型，這種CNN模型使用的是AlexNet或VGGNet去掉最後的全連線層和softmax層，這個作為特徵提取器，然後使用SVM作為最後的線性分類器。當然，作者還在實驗中嘗試了多種方法，比如最後使用softmax但

論文筆記：ThiNet——一種filter級的模型裁剪演算法

前言近兩年來，有關模型壓縮的論文越來越多，人們不再一昧的只追求強大的效能，而是開始慢慢的將模型的大小、運算量以及效率考慮進來，人們做的越來越多的是，在效能可接受的範圍內，模型越小越好。這也說明了一點，深度學習模型已經開始被廣泛的運用在了平常的生活當中

論文筆記：Densely Connected Convolutional Networks(DenseNet模型詳解)

摘要最近的研究表明，當靠近輸入的層和靠近輸出的層之間的連線越短，卷積神經網路就可以做得更深，精度更高且可以更加有效的訓練。本文根據這一結論，提出了一種稠密卷積神經網路(Dense Convolutional Network,DenseNet)

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

exploit orm dom ons tail red 最好早期形式化基於自適應顏色屬性的目標追蹤 Adaptive Color Attributes for Real-Time Visual Tracking 基於自適應顏色屬性的實時視覺追蹤 3月講的第一

論文筆記：Fast(er) RCNN

這也物體檢測因此 sele 疑惑修正 width 輸入重點在 RCNN 初步試水取得成功後，研究人員又迅速跟進，針對 RCNN 中的幾點不足提出改進，接連推出了 fast-rcnn 和 faster-rcnn。關於這兩篇論文，網上相關的文章實在是多如牛毛，因此，本

CSS學習筆記：盒子模型

dev docs eve cti http box out rect per 盒子模型（CSS basic box model）：When laying out a document, the browser‘s rendering engine represents ea

論文筆記：時間序列分析

論文筆記：Causal Inference on EventSequences 論文綜述解決的問題：兩個不同的序列xn與yn，是否能斷定他們相互關聯，或者說存在因果關係。依託的主要知識：概率論名詞解釋：格蘭傑因果關係 Granger c

論文筆記：Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

感想最近深度學習面試的時候，有個面試官問了我LSTM，我一下子傻眼了，確實不怎麼好懂，學LSTM已經有半年的時間了，但是對這個玩意兒卻還不怎麼明白，可能是沒用過它的緣故吧，我找了一篇它和GRU比較的論文，這篇論文沒有從理論上證明哪個模型的好壞，只是從實驗，應用場景的角度發現GRU在一些場景比LST

論文筆記：Interpret Neural Networks by Identifying Critical Data Routing Paths

這是一篇做可解釋性AI的文章，文章的主要內容就是提出了一種新的資料表示分析方法，在此之上做了一些分析工作。 Abstract：大概就是說定義了一個叫CDRPs（可分離路徑），這是文章的主要內容。 Introduction：大多的視覺化分析方法多是定性的，沒法定量分

深度學習論文筆記：Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes

這篇文章將深度學習演算法應用於機械故障診斷，採用了“小波包分解+深度殘差網路(ResNet)”的思路，將機械振動訊號按照故障型別進行分類。文章的核心創新點：複雜旋轉機械系統的振動訊號包含著很多不同頻率的衝擊和振盪成分，而且不同頻帶內的振動成分在故障診斷中的重要程度經常是不同的，因此可以按照如下步驟設計深度

論文筆記：VGG模型

摘要

網路結構

模型訓練

模型測試

參考文獻

論文筆記：VGG模型

論文筆記：雙線性模型《Bilinear CNN Models for Fine-Grained Visual Recognition》

論文筆記：ThiNet——一種filter級的模型裁剪演算法

論文筆記：Densely Connected Convolutional Networks(DenseNet模型詳解)

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

論文筆記：Fast(er) RCNN

CSS學習筆記：盒子模型

論文筆記：時間序列分析

論文筆記：Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

論文筆記：Interpret Neural Networks by Identifying Critical Data Routing Paths

深度學習論文筆記：Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes

論文筆記：Deep Attentive Tracking via Reciprocative Learning

論文筆記：Visual Object Tracking based on Adaptive Siamese and Motion Estimation Network

論文筆記：2018 PRCV 頂會頂刊牆展

論文筆記：Learning Region Features for Object Detection

學習筆記：生成模型(待完善)

論文筆記：CNN經典結構2（WideResNet，FractalNet，DenseNet，ResNeXt，DPN，SENet）

論文筆記：IRGAN：A Minimax Game for Unifying Generative and Discriminative Information

論文筆記：目標檢測演算法（R-CNN，Fast R-CNN，Faster R-CNN，YOLOv1-v3）

論文筆記：語音情感識別（二）聲譜圖+CRNN

論文筆記：VGG模型

摘要

網路結構

模型訓練

模型測試

參考文獻

相關推薦