1. 程式人生 > >論文筆記:VGG模型

論文筆記:VGG模型

本篇博文主要是閱讀Karen Simonyan的論文《VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION》的一些筆記,博文中的圖表也均來自論文原文。詳細的內容還是看論文的好。。。

摘要

在本文中,我們研究了在大規模影象識別任務中卷積神經網路的深度對準確率的影響。我們主要的貢獻是利用帶有很小卷積核(3*3)的網路結構對逐漸加深的網路進行評估,結果表明通過加深網路深度至16-19層可以極大地改進前人的網路結構。這些發現也是我們參加2014年ImageNet比賽的基礎,並且在這次比賽中,我們分別在定位和分類跟蹤任務中取得第一名和第二名。同時我們的模型對其他資料集也有很好的泛化能力,在這些資料上取得了最好的結果。為了促進計算機視覺領域深度視覺模型的進一步研究,我們公開了兩個表現最好的卷積神經網路模型。

網路結構


VGG_configuration

模型結構中的一些細節說明:

  • 輸入均是裁剪過的224*224大小的RGB圖片,並經過去均值處理。
  • 卷積層中卷積核大小均是3*3,步長為1(stride = 1),補1圈0 (pad = 1)。
  • 池化層均採用最大池化(max pooling),但不是所有的卷積層都有池化層,池化視窗為2*2,步長為2,即採用的是不重疊池化。
  • 所有隱含層後都配有有ReLU層
  • 引數數量(見下表):

    VGG_parameter number

選用3*3卷積核代替大卷積核的好處:

2個3*3的卷積核串聯和用一個5*5的卷積核有相同的感知野,3個3*3的卷積核串聯和用一個7*7的卷積核有相同的感知野。但前者相比於後者有更少的引數。

舉個簡單的例子,假設輸入特徵圖(feature map)的大小為32*32*3(寬 * 高 * 通道數):
case 1: 採用1個5*5的卷積核,stride = 1, pad=2, 輸出特徵圖的大小等於: 32+2pad5/1+1=32,引數的數量為355=75個(每個通道25個,共3個通道);
case 2: 採用2個3*3的卷積核,stride = 1, pad=1, 第一次卷積後特徵圖大小等於:(32+2pad3)/1+1=32,第二次卷積輸出特徵圖的大小等於: 32+2pad3/1+1=32,總引數的數量為2333=54個(每個通道9個,共3個通道,2個卷積層),比單獨使用一個5*5的卷積核少了21個。

模型訓練

除了從多尺度的訓練影象中進行取樣,其他基本和AlexNet模型的訓練方法一致:
- 資料集擴充(data aumentation): 隨機裁剪(crop)、水平翻轉(horizontal flips)、RGB顏色變化(color shift)
- 訓練採用小批量梯度下降法加上動量(mini-batch stochastic gradient descent + momentum),batch size = 256, momentum = 0.9;
- 正則化方法採用weight decay(L2罰函式乘子設為0.0005)和dropout(丟棄率設為0.5);
- 初始學習率(learning rate)為0.001,當在驗證集上的準確率不再提高是學習率變為原來的0.1倍,一共降低了3次;
- 總迭代次數為370k (74 epochs), epochs指訓練集完整遍歷的次數
- 採用2種設定訓練影象大小方法: (1)固定訓練集圖片大小,如256*256和384*384;(2)多尺度訓練,讓訓練集的大小在一個範圍內隨機變化,如S[Smin,Smax]=[256,512],具體可以看論文。

模型測試

在測試階段,首先選定一個測試集圖片大小Q,然後在這個圖片上應用訓練好的卷積網路,在最後一個卷積階段產生未經池化的特徵圖,然後利用滑動視窗的方法,每種池化視窗產生一個分類輸出,然後融合各個結果,得到最終分類。這樣做相對於取10個圖片塊的好處是更加高效,因為只需計算一次卷積過程。

參考文獻

  • Karen Simonyan, Andrew Zisserman. very deep convolutional networks for large-scale image recognition.

相關推薦

論文筆記VGG模型

本篇博文主要是閱讀Karen Simonyan的論文《VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION》的一些筆記,博文中的圖表也均來自論文原文。詳細的內容還是看論文的好。。。

論文筆記雙線性模型 《Bilinear CNN Models for Fine-Grained Visual Recognition》

雙線性模型是2015年提出的一種細粒度影象分類模型。該模型使用的是兩個並列的CNN模型,這種CNN模型使用的是AlexNet或VGGNet去掉最後的全連線層和softmax層,這個作為特徵提取器,然後使用SVM作為最後的線性分類器。當然,作者還在實驗中嘗試了多種方法,比如最後使用softmax但

論文筆記ThiNet——一種filter級的模型裁剪演算法

前言 近兩年來,有關模型壓縮的論文越來越多,人們不再一昧的只追求強大的效能,而是開始慢慢的將模型的大小、運算量以及效率考慮進來,人們做的越來越多的是,在效能可接受的範圍內,模型越小越好。這也說明了一點,深度學習模型已經開始被廣泛的運用在了平常的生活當中

論文筆記Densely Connected Convolutional Networks(DenseNet模型詳解)

摘要 最近的研究表明,當靠近輸入的層和靠近輸出的層之間的連線越短,卷積神經網路就可以做得更深,精度更高且可以更加有效的訓練。本文根據這一結論,提出了一種稠密卷積神經網路(Dense Convolutional Network,DenseNet)

論文筆記目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

exploit orm dom ons tail red 最好 早期 形式化 基於自適應顏色屬性的目標追蹤 Adaptive Color Attributes for Real-Time Visual Tracking 基於自適應顏色屬性的實時視覺追蹤 3月講的第一

論文筆記Fast(er) RCNN

這也 物體檢測 因此 sele 疑惑 修正 width 輸入 重點 在 RCNN 初步試水取得成功後,研究人員又迅速跟進,針對 RCNN 中的幾點不足提出改進,接連推出了 fast-rcnn 和 faster-rcnn。關於這兩篇論文,網上相關的文章實在是多如牛毛,因此,本

CSS學習筆記盒子模型

dev docs eve cti http box out rect per 盒子模型(CSS basic box model):When laying out a document, the browser‘s rendering engine represents ea

論文筆記時間序列分析

論文筆記:Causal Inference on EventSequences 論文綜述 解決的問題:兩個不同的序列xn與yn,是否能斷定他們相互關聯,或者說存在因果關係。 依託的主要知識:概率論 名詞解釋: 格蘭傑因果關係 Granger c

論文筆記Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

感想 最近深度學習面試的時候,有個面試官問了我LSTM,我一下子傻眼了,確實不怎麼好懂,學LSTM已經有半年的時間了,但是對這個玩意兒卻還不怎麼明白,可能是沒用過它的緣故吧,我找了一篇它和GRU比較的論文,這篇論文沒有從理論上證明哪個模型的好壞,只是從實驗,應用場景的角度發現GRU在一些場景比LST

論文筆記Interpret Neural Networks by Identifying Critical Data Routing Paths

這是一篇做可解釋性AI的文章,文章的主要內容就是提出了一種新的資料表示分析方法,在此之上做了一些分析工作。 Abstract: 大概就是說定義了一個叫CDRPs(可分離路徑),這是文章的主要內容。 Introduction: 大多的視覺化分析方法多是定性的,沒法定量分

深度學習論文筆記Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes

這篇文章將深度學習演算法應用於機械故障診斷,採用了“小波包分解+深度殘差網路(ResNet)”的思路,將機械振動訊號按照故障型別進行分類。 文章的核心創新點:複雜旋轉機械系統的振動訊號包含著很多不同頻率的衝擊和振盪成分,而且不同頻帶內的振動成分在故障診斷中的重要程度經常是不同的,因此可以按照如下步驟設計深度

論文筆記Deep Attentive Tracking via Reciprocative Learning

  Deep Attentive Tracking via Reciprocative Learning NIPS18_tracking Type:Tracking-By-Detection 本篇論文地主要創新是在將注意機制引入到目標跟蹤 摘要:源自認知神經科學地視覺注意促進人類對相關的內

論文筆記Visual Object Tracking based on Adaptive Siamese and Motion Estimation Network

 Visual Object Tracking based on Adaptive Siamese and Motion Estimation     本文提出一種利用上一幀目標位置座標,在本幀中找出目標可能出現的位置的網路--motion es

論文筆記2018 PRCV 頂會頂刊牆展

Global Gated Mixture of Second-order Pooling for Imporving Deep Convolutional Neural Network(2018 NIPS,大工李培華組) 論文motivation: (1)現存的池化:一階GAP(全域性均值池化)是很多CNN

論文筆記Learning Region Features for Object Detection

中心思想 繼Relation Network實現可學習的nms之後,MSRA的大佬們覺得目標檢測器依然不夠fully learnable,這篇文章類似之前的Deformable ROI Pooling,主要在ROI特徵的組織上做文章,文章總結了現有的各種ROI Pooling變體,提出了一個統一的數學表示式

學習筆記生成模型(待完善)

這一章,是書中最後的一章,我認為是概念最大的一章,看完這一章之後, 我很是欣慰啊,高興,總算是結束了,有種心理是,讓你虐我千百遍.我始終待你如初戀啊。 相關玻爾茲曼機的生成模型 @@1.玻爾茲曼機  @@2.RBM 受限玻爾茲曼機 ,簧風琴 @@3. DBN 深度信

論文筆記CNN經典結構2(WideResNet,FractalNet,DenseNet,ResNeXt,DPN,SENet)

###前言 本文承接之前的一篇[論文筆記:CNN經典結構1](https://www.cnblogs.com/liaohuiqiang/p/9606901.html)。前文主要講了2012-2015年的一些經典CNN結構,從AlexNet,ZFNet,OverFeat到VGG,GoogleNetv1

論文筆記IRGANA Minimax Game for Unifying Generative and Discriminative Information

2017 SIGIR 簡單介紹 IRGAN將GAN用在資訊檢索(Information Retrieval)領域,通過GAN的思想將生成檢索模型和判別檢索模型統一起來,對於生成器採用了基於策略梯度的強化學習來訓練,在三種典型的IR任務上(四個資料集)得到了更顯著的效果。 生成式和判別式的檢索模型 生成式檢索模

論文筆記目標檢測演算法(R-CNN,Fast R-CNN,Faster R-CNN,YOLOv1-v3)

R-CNN(Region-based CNN) motivation:之前的視覺任務大多數考慮使用SIFT和HOG特徵,而近年來CNN和ImageNet的出現使得影象分類問題取得重大突破,那麼這方面的成功能否遷移到PASCAL VOC的目標檢測任務上呢?基於這個問題,論文提出了R-CNN。 基本步驟:如下圖

論文筆記語音情感識別(二)聲譜圖+CRNN

一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 InterSpeech) (1)論文的模型如下圖,輸入聲譜圖,CNN先用兩個不同的卷積核分別提取時域特徵和頻域特徵,c