『cs231n』卷積神經網絡的可視化與進一步理解

阿新 • • 發佈：2017-07-11

都是 lan 精度輸出上采樣一行 ear 模型運算

cs231n的第18課理解起來很吃力，聽後又查了一些資料才算是勉強弄懂，所以這裏貼一篇博文（根據自己理解有所修改）和原論文的翻譯加深加深理解。

可視化理解卷積神經網絡

原文地址

一、相關理論

本篇博文主要講解2014年ECCV上的一篇經典文獻：《Visualizing and Understanding Convolutional Networks》，可以說是CNN領域可視化理解的開山之作，這篇文獻告訴我們CNN的每一層到底學習到了什麽特征，然後作者通過可視化進行調整網絡，提高了精度。最近兩年深層的卷積神經網絡，進展非常驚人，在計算機視覺方面，識別精度不斷的突破，CVPR上的關於CNN的文獻一大堆。然而很多學者都不明白，為什麽通過某種調參、改動網絡結構等，精度會提高。可能某一天，我們搞CNN某個項目任務的時候，你調整了某個參數，結果精度飆升，但如果別人問你，為什麽這樣調參精度會飆升呢，你所設計的CNN到底學習到了什麽特征？

這篇文獻的目的，就是要通過特征可視化，告訴我們如何通過可視化的角度，查看你的精度確實提高了，你設計CNN學習到的特征確實比較牛逼。這篇文獻是經典必讀文獻，才發表了一年多，引用次數就已經達到了好幾百，學習這篇文獻，對於我們今後深入理解CNN，具有非常重要的意義。總之這篇文章，牛逼哄哄。

二、利用反卷積實現特征可視化

為了解釋卷積神經網絡為什麽work，我們就需要解釋CNN的每一層學習到了什麽東西。為了理解網絡中間的每一層，提取到特征，paper通過反卷積的方法，進行可視化。反卷積網絡可以看成是卷積網絡的逆過程。反卷積網絡在文獻《Adaptive deconvolutional networks for mid and high level feature learning》中被提出，是用於無監督學習的。然而本文的反卷積過程並不具備學習的能力，僅僅是用於可視化一個已經訓練好的卷積網絡模型，沒有學習訓練的過程。

反卷積可視化以各層得到的特征圖作為輸入，進行反卷積，得到反卷積結果，用以驗證顯示各層提取到的特征圖。舉個例子：假如你想要查看Alexnet 的conv5提取到了什麽東西，我們就用conv5的特征圖後面接一個反卷積網絡，然後通過：反池化、反激活、反卷積，這樣的一個過程，把本來一張13*13大小的特征圖(conv5大小為13*13)，放大回去，最後得到一張與原始輸入圖片一樣大小的圖片(227*227)。

1、反池化過程

我們知道，池化是不可逆的過程，然而我們可以通過記錄池化過程中，最大激活值得坐標位置。然後在反池化的時候，只把池化過程中最大激活值所在的位置坐標的值激活，其它的值置為0，當然這個過程只是一種近似，因為我們在池化的過程中，除了最大值所在的位置，其它的值也是不為0的。剛好最近幾天看到文獻：《Stacked What-Where Auto-encoders》，裏面有個反卷積示意圖畫的比較好，所有就截下圖，用這篇文獻的示意圖進行講解：

技術分享

以上面的圖片為例，上面的圖片中左邊表示pooling過程，右邊表示unpooling過程。假設我們pooling塊的大小是3*3，采用max pooling後，我們可以得到一個輸出神經元其激活值為9，pooling是一個下采樣的過程，本來是3*3大小，經過pooling後，就變成了1*1大小的圖片了。而upooling剛好與pooling過程相反，它是一個上采樣的過程，是pooling的一個反向運算，當我們由一個神經元要擴展到3*3個神經元的時候，我們需要借助於pooling過程中，記錄下最大值所在的位置坐標(0,1)，然後在unpooling過程的時候，就把(0,1)這個像素點的位置填上去，其它的神經元激活值全部為0。再來一個例子：

技術分享

在max pooling的時候，我們不僅要得到最大值，同時還要記錄下最大值得坐標（-1，-1），然後再unpooling的時候，就直接把(-1-1)這個點的值填上去，其它的激活值全部為0。

2、反激活

我們在Alexnet中，relu函數是用於保證每層輸出的激活值都是正數，因此對於反向過程，我們同樣需要保證每層的特征圖為正值，也就是說這個反激活過程和激活過程沒有什麽差別，都是直接采用relu函數。

3、反卷積

對於反卷積過程，采用卷積過程轉置後的濾波器(參數一樣，只不過把參數矩陣水平和垂直方向翻轉了一下)，這一點我現在也不是很明白，估計要采用數學的相關理論進行證明。

最後可視化網絡結構如下：

技術分享

網絡的整個過程，從右邊開始：輸入圖片-》卷積-》Relu-》最大池化-》得到結果特征圖-》反池化-》Relu-》反卷積。到了這邊，可以說我們的算法已經學習完畢了，其它部分是文獻要解釋理解CNN部分，可學可不學。

總的來說算法主要有兩個關鍵點：1、反池化 2、反卷積，這兩個源碼的實現方法，需要好好理解。

三、理解可視化

特征可視化：一旦我們的網絡訓練完畢了，我們就可以進行可視化，查看學習到了什麽東西。但是要怎麽看？怎麽理解，又是一回事了。我們利用上面的反卷積網絡，對每一層的特征圖進行查看。

1、特征可視化結果：

技術分享

總的來說，通過CNN學習後，我們學習到的特征，是具有辨別性的特征，比如要我們區分人臉和狗頭，那麽通過CNN學習後，背景部位的激活度基本很少，我們通過可視化就可以看到我們提取到的特征忽視了背景，而是把關鍵的信息給提取出來了。從layer 1、layer 2學習到的特征基本上是顏色、邊緣等低層特征；layer 3則開始稍微變得復雜，學習到的是紋理特征，比如上面的一些網格紋理；layer 4學習到的則是比較有區別性的特征，比如狗頭；layer 5學習到的則是完整的，具有辨別性關鍵特征。

2、特征學習的過程。作者給我們顯示了，在網絡訓練過程中，每一層學習到的特征是怎麽變化的，上面每一整張圖片是網絡的某一層特征圖，然後每一行有8個小圖片，分別表示網絡epochs次數為：1、2、5、10、20、30、40、64的特征圖：

技術分享

結果：(1)仔細看每一層，在叠代的過程中的變化，出現了sudden jumps;(2)從層與層之間做比較，我們可以看到，低層在訓練的過程中基本沒啥變化，比較容易收斂，高層的特征學習則變化很大。這解釋了低層網絡的從訓練開始，基本上沒有太大的變化，因為梯度彌散嘛。(3)從高層網絡conv5的變化過程，我們可以看到，剛開始幾次的叠代，基本變化不是很大，但是到了40~50的叠代的時候，變化很大，因此我們以後在訓練網絡的時候，不要著急看結果，看結果需要保證網絡收斂。

3、圖像變換。從文獻中的圖片5可視化結果，我們可以看到對於一張經過縮放、平移等操作的圖片來說：對網絡的第一層影響比較大，到了後面幾層，基本上這些變換提取到的特征沒什麽比較大的變化。

個人總結：我個人感覺學習這篇文獻的算法，不在於可視化，而在於學習反卷積網絡，如果懂得了反卷積網絡，那麽在以後的文獻中，你會經常遇到這個算法。大部分CNN結構中，如果網絡的輸出是一整張圖片的話，那麽就需要使用到反卷積網絡，比如圖片語義分割、圖片去模糊、可視化、圖片無監督學習、圖片深度估計，像這種網絡的輸出是一整張圖片的任務，很多都有相關的文獻，而且都是利用了反卷積網絡，取得了牛逼哄哄的結果。所以我覺得我學習這篇文獻，更大的意義在於學習反卷積網絡。

參考文獻：

1、《Visualizing and Understanding Convolutional Networks》

2、《Adaptive deconvolutional networks for mid and high level feature learning》

3、《Stacked What-Where Auto-encoders》

『cs231n』卷積神經網絡的可視化與進一步理解

都是 lan 精度輸出上采樣一行 ear 模型運算 cs231n的第18課理解起來很吃力，聽後又查了一些資料才算是勉強弄懂，所以這裏貼一篇博文（根據自己理解有所修改）和原論文的翻譯加深加深理解。可視化理解卷積神經網絡原文地址一、相關理論本篇博文主要講解201

『cs231n』卷積神經網絡的可視化與進一步理解

可視化理解卷積神經網絡

『cs231n』卷積神經網絡的可視化與進一步理解

cs231n---卷積網絡可視化

Stanford CS231n實踐筆記（課時22卷積神經網絡工程實踐技巧與註意點 cnn in practise 上）

1.5神經網絡可視化顯示（matplotlib）

『TensorFlow』讀書筆記_簡單卷積神經網絡

TensorFlow(九)：卷積神經網絡實現手寫數字識別以及可視化

DeepTracker: Visualizing the Training Process of Convolutional Neural Networks（對卷積神經網絡訓練過程的可視化）

Network In Network——卷積神經網絡的革新

[透析] 卷積神經網絡CNN究竟是怎樣一步一步工作的？（轉）

AI相關 TensorFlow -卷積神經網絡踩坑日記之一

C++卷積神經網絡實例：tiny_cnn代碼具體解釋（6）——average_pooling_layer層結構類分析

卷積神經網絡（CNN）

TensorFlow框架(4)之CNN卷積神經網絡詳解

Tensorflow框架初嘗試————搭建卷積神經網絡做MNIST問題

卷積神經網絡--CNN

卷積神經網絡(CNN)模型結構

卷積神經網絡中的參數計算

基於深度學習的病毒檢測技術無需沙箱環境，直接將樣本文件轉換為二維圖片，進而應用改造後的卷積神經網絡 Inception V4 進行訓練和檢測

學習筆記TF057:TensorFlow MNIST，卷積神經網絡、循環神經網絡、無監督學習

Tensorflow卷積神經網絡[轉]

『cs231n』卷積神經網絡的可視化與進一步理解

可視化理解卷積神經網絡

相關推薦