[CS231n-assignment2] Python從零實現的CNN在CIFAR-10上的實驗報告

阿新 • • 發佈：2019-01-21

1. CS231n課程

CS231n是斯坦福大學李飛飛團隊的一門關於卷積神經網路CNN的課程，這個課程從KNN和線性分類器講到普通的神經網路，再將到卷積神經網路的實現，以及一些實用的技術如Dropout、Batch Normalization等，整個課程下來後會對CNN有個比較全面的瞭解。這個課程通俗易懂，是入門深度學習的良心課程，不僅圖文結合闡述了網路正向和反向傳播的過程，還會介紹一些在實用中的應用的trick如訓練過程的梯度檢查、如何判斷學習率大小、如何判斷過擬合等等，以及相應的解決方法

1.2 Assignment 2 使用

配套CS231n課程的有兩次作業，作業2主要有四部分內容：全連線層的實現、Batch Normalization、Dropout和卷積層的實現，CS231n有作業的初始模板，可以

在此下載，模板裡已經填好了實現這些網路的部分程式碼，學習者只需要在特定的方法中填寫自己的程式碼即可，例如下面全連線層的forward方法，只需理解了課程筆記後按照提示在TODO中填寫程式碼，填寫完後，模板中還提供了方法來檢查你程式碼的正確性：執行IPython notebook，這個notebook會引導你如何填寫程式碼並測試程式碼，最後會在CIFAR-10資料集上測試你的CNN的準確性。

def affine_forward(x, w, b):
  """
  Computes the forward pass for an affine (fully-connected) layer.

  The input x has shape (N, d_1, ..., d_k) and contains a minibatch of N
  examples, where each example x[i] has shape (d_1, ..., d_k). We will
  reshape each input into a vector of dimension D = d_1 * ... * d_k, and
  then transform it to an output vector of dimension M.

  Inputs:
  - x: A numpy array containing input data, of shape (N, d_1, ..., d_k)
  - w: A numpy array of weights, of shape (D, M)
  - b: A numpy array of biases, of shape (M,)

  Returns a tuple of:
  - out: output, of shape (N, M)
  - cache: (x, w, b)
  """ 

  out = None
  #############################################################################
  # TODO: Implement the affine forward pass. Store the result in out. You     #
  # will need to reshape the input into rows.                                 #
  ############################################# 
################################
  pass
  #############################################################################
  #                             END OF YOUR CODE                              #
  #############################################################################
  cache = (x, w, b)
  return out, cache

本文對作業中填寫的程式碼參照了CS231n (winter 2016) : Assignment2 - 簡書，完整的程式碼位於Github，執行前請參考CS231n的Readme，Readme中詳細介紹了環境的搭建、資料集的下載，如何使用IPython，以及相應的編譯過程（如果要用Cpython加速訓練過程的話）

請先下載初始模板，搭建Python環境，下載資料集，執行IPython，然後參考notebook中的提示，填寫相應程式碼。由於各個部分的程式碼在簡書和Github中已有，不再累述。下面主要說一些在CIFAR-10資料庫上通過改變CNN網路結構引數提高準確率的心得

2. 在CIFAR-10上的表現

2.1 簡單兩層神經網路

當完成Part 1：全連線神經網路後，notebook會提示在CIFAR-10上跑一下，此時若程式碼實現正常，在測試集上基本上可以達到50%-55%的準確率，網路結構為簡單兩層，具體請見Github中的classifiers/fc_net.py，下面總結實戰中的一些小的trick：

Trick 1：如何測試我們實現的模型有效性：小資料集過擬合：如何判斷我們的方法到能不能work，根據notebook裡的提示，可以在一個很小的資料集上跑幾個epoch，觀察我們的模型是否能夠對訓練集很好的過擬合，而測試集準確率很低，具體是：在訓練集這個100張圖片裡，是否能夠實現99%-100%準確率的判斷，而在測試集中另外的100張圖片有比較低的準確率（10%左右），這裡的模型指我們手動實現的演算法

Trick 2：如何判斷對層的實現是否正確：梯度檢查：在將我們的演算法應用到正式的資料集上之前，需要對實現的層進行解析梯度和數值梯度的比較，具體方法在notebook裡，數值梯度是微調1e-6引數獲得的差值除以改變數1e-6得到的，而解析梯度是我們實現程式碼反向傳播的輸出（因為我們對層的更新都是根據求導法則來的，所以是梯度的解析值），將這兩個梯度值比較，觀察相對誤差，能判斷對這個層的實現有沒有問題，相對誤差在1e-7或者更小是很好的結果，若相對誤差達到了1e-2，通常你的實現就有問題。但是，網路越深，相對誤差會累計，在10層的網路裡若有1e-2的相對誤差，那也是可以的。除了梯度檢查，notebook中提供了參考值用來檢查你實現的權值更新準則如SGD+Momentum、RMSProp、Adam

Trick 3：如何判斷權值和偏移量引數的初始化是否正確： 初始化對訓練過程也是非常重要的，所以我們需要對訓練過程進行檢查，當正則強度為0時，對於CIFAR-10的softmax輸出的分類器（初始權值w為0.01量級的隨機數，初始偏移b為0），一般初始的loss function的值為2.302，這是因為初始時分類器對每一類的概率期望為0.1（共有10類），因此softmax損失函式值為對於正確分類概率的負對數：-ln(0.1)=2.302

Trick 4：如何判斷學習率是否合適： 在訓練過程中，需要對loss值進行實時地列印，可以判斷當前訓練的狀態：高的學習率高會使損失值下降很快，然後停止在一個比較高的位置（相對最優），這是因為引數每次更新過大，導致在最優點附近震盪，但始終無法達到最優點，而過高的學習率會直接使損失值遞增。過於低的學習率會導致損失值下降很慢，訓練過程太長，引用筆記中的一張圖來理解：

這裡寫圖片描述

Trick 5：如何判斷模型的過擬合程度： 在訓練過程中，我們還需要對每個epoch中的訓練集和測試集的準確率進行列印，能夠確定模型是否過擬合或者欠擬合，若訓練集準確率一直大幅度高於驗證集，說明此時模型過擬合，對訓練集有過好的分類能力導致無法在驗證集上進行比較好的分類，解決的方法可以增大正則化強度，如增大L2正則懲罰，增加dropout的隨機失活率等。如果訓練集一直小幅度低於驗證集，說明此時稍微過擬合，而如果訓練集和驗證集的準確率不相上下，說明此時模型有點欠擬合，沒有很好地學習到特徵，此時可以調整模型引數如層的深度等，引用筆記中的一張圖說明：

這裡寫圖片描述

Trick 6：如何判斷訓練中出現的梯度消散問題： 我們知道，當網路的層數過於深以後，會出現梯度消散的情況，也就是回傳到前幾層的梯度值很小，導致前面幾層的引數無法更新。對此，我們可以列印前幾層網路權值引數w的更新比例，經驗結論是這個更新比例在1e-3比較比較好，若這個值太大，說明學習率太高；若這個值很小到1e-7，說明引數w基本上不會變，發生了梯度消散，解決方法為：1）使用Batch Normalization歸一化每層之間的輸出，2）啟用函式改用線性ReLU，3）還有可能是學習率太低，4）減少網路層數

Trick 7：如何判斷訓練過程是否穩定和有效： 若資料為影象資料，那麼可以把第一層的權重進行視覺化，觀察模型是否學習到了比較的好的特徵，notebook裡內建了相關視覺化的方法，若特徵圖中顏色雜亂無規律且充滿噪音，說明訓練過程未收斂（學習率太高）或者正則化懲罰不夠，引用筆記中的圖來解釋，下圖中的右圖為比較好的特徵，平滑而且種類繁多，說明訓練過程有效且穩定

這裡寫圖片描述

Trick 8：如何進行有效的資料預處理： 在實際應用中CNN比較多的是減均值法和歸一化，其他的處理方法為PCA和白化（Whitening）：PCA能消除資料的相關性，使資料的分佈在基準值上；白化則可看成是把資料在各個特徵方向上進行拉伸壓縮變化，使之服從均值為零的高斯分佈，具體參考[知乎]（https://zhuanlan.zhihu.com/p/21560667?refer=intelligentunit）

2.2 卷積神經網路

2.2.1 三層簡單CNN

在寫Part 2：卷積神經網路之前，會先完成Dropout和Batch Normalization這兩部分。在完成了Part 2後，notebook會用classifiers/cnn.py 中一個三層的簡單的卷積神經網路來跑CIFAR-10，最終的表現在測試集上達到55-59%這樣一個結果，比普通的神經網路高了幾個百分點，這個網路結構如下：

這裡寫圖片描述

2.2.2 稍微複雜點的CNN

基於這個naive的CNN，我再加入一個卷積層和一個全連線層，去掉了Pool層，因為size為2的Pool層會使影象壓縮至四分之一，而FICAR的影象大小為32*32，經過一個Pool後變成了16*16，資訊損失太大，所以去掉Pool，考慮使用卷積層的stride=2或者3來壓縮影象：

 INPUT --> [CONV --> RELU]*2 --> [FC --> RELU]*2 --> FC/OUT

此時在測試集上的精度大概能達到60-65%的程度，然後各種修改卷積層的padding，stride，filter_num引數，大概能提高到67%左右，而訓練集精度基本上可以達到90%，說明模型有點過擬合，下一步考慮使用Dropout。

2.2.3 多層小卷積層CNN+Dropout

2.上述網路卷積層的過濾器尺寸始終未6或者7，相對於32*32的影象來說確實是一個比較大的尺寸，然而多層的小size的卷積層效果要比大的size的卷積層好：

現在，我們以3個3x3的卷積層和1個7x7的卷積層為例，加以對比說明。從下圖可以看出，這兩種方法最終得到的activation map大小是一致的，但3個3x3的卷積層明顯更好：
1)、3層的非線性組合要比1層線性組合提取出的特徵具備更高的表達能力；
2)、3層小size的卷積層的引數數量要少，3x3x3<7x7；
3)、同樣的，為了便於反向傳播時的梯度計算，我們需要保留很多中間梯度，3層小size的卷積層需要保留的中間梯度更少。

來自簡書

因此，我使用小的卷積層，兩個卷積層的過濾器都為filter_size=(3,3)，使用stride=2來壓縮影象；同時在輸出層前一層加入了Dropout防止過擬合，隨機失活率p=0.8，網路結構如下：

 INPUT --> [CONV --> RELU]*2 --> FC --> RELU --> FC --> RELU --> DropOut --> FC/OUT

此時在測試集上的精度大概能達到65-70%左右的程度，訓練集精度在很多次epoch後還是維持在80%以上，這時的調整包括再次增加一個全連線層，但是精度還是不能很好提高，遇到了瓶頸，這時可以考慮加入Batch Normalization了。

2.2.4 分析大殺器ResNets

然後我去CIFAR資料集查好解決方案，看到了2015年最好的網路結構ResNets，能達到93%+的精度，這個網路最深能達到110層，而且在20層的時候就能達到91%了。我們考慮20層簡單的情況:

INPUT --> [CONV --> BatchNorm --> RELU]*19 --> POOL --> FC/OUT

這個網路的特點為：每一卷積層都使用小的過濾器filter_size=(3,3)，分階段調整stride步長值：分別在第8層和第13層調整stride=2來壓縮影象，其他卷積層的步長stride都1，而且每層卷積層後都會跟一個BatchNormal防止梯度彌散。通過分析這個網路，可以看出：

其實在stride>1的時候，stride跟pool一樣，只保留了上個網路部分的資訊，能起到壓縮影象內容。
zero-padding的作用不只是起到一個折中的方案：填補空白區域使卷積過程能夠順利進行，方便從過濾器能從初始位置以步長為單位可以剛好滑倒末尾位置，它的另外一個作用是為了保持影象的尺寸不變，根據公式output_size=（input_size+2*padding-filter_size）/stride+1，我們以input_size=32, padding=1, filter_size=3, stride=1 來計算卷積後的影象大小output_size=(32-2*1-3)/1+1=32，可以看出輸入影象和卷積後的影象大小並沒有改變，這也就是ResNets為什麼能在32*32這麼小的影象上卷積100多次的原因了，而且只靠stride=2來壓縮影象兩次。

對於ImageNet這樣256*256影象的資料來說，怎麼設定stride、padding、filter_size可能沒有這麼講究，但是對於CIFAR小影象來說，如何巧妙地設計這些引數就有很大用處了，是深層網路必須的考慮的事

2.2.5 最後的掙扎

根據上面的分析，我最後掙扎了一下，因為機器不可能跑這麼多層網路，還是採用了經典的CNN網路模型：

INPUT --> [CONV --> RELU --> CONV --> RELU --> POOL]*2 --> [FC --> RELU] --> DROPOUT --> [FC --> RELU] --> FC/OUT

四個卷積層三個全連線，每個卷積層fliter_size=(3,3)， stride=1，padding=1，重新使用pool壓縮影象，以下是我的最終引數，可以在classfiers/cnn_custom 裡檢視：

weight_scale=0.01, L2 regularization=0.0005, dropout=0.8, batch_size=100, optimizer=adam, learning_rate=0.001

INPUT: input_dim=(3,32,32)
CONV1: filters=64, filter_size=(3,3),stride=1, pad=1
CONV2: filters=64, filter_size=(3,3), stride=1, pad=1
POOL2: pool_height= 2, pool_width= 2, stride= 2
CONV3: filters=64, filter_size=(3,3),stride=1, pad=1
CONV4: filters=64, filter_size=(3,3), stride=1, pad=1
POOL4: pool_height= 2, pool_width= 2, stride= 2
FC5: 512 neurons
FC6: 64 neurons
FC7: 10 outputs

最終結果能拿到77%左右的測試集精度，90%+的訓練集精度，未來的提高點在於每層加入Batch Normalization，因為BN需要額外的計算量還挺大的（自己實現的話），所以沒有加上。最好的方案是跟ResNets一樣，用小卷積層並擴充套件深度至20層以上。

這裡寫圖片描述

下面給出我第一層卷積層權值w的視覺化，因為是3*3，好像並看不出來什麼，但是相比剛開始訓練的時候要好的很多，不信你可以在訓練完1個epoch時就視覺化看看

這裡寫圖片描述

[CS231n-assignment2] Python從零實現的CNN在CIFAR-10上的實驗報告

1. CS231n課程

1.2 Assignment 2 使用

2. 在CIFAR-10上的表現

2.1 簡單兩層神經網路

2.2 卷積神經網路

2.2.1 三層簡單CNN

2.2.2 稍微複雜點的CNN

2.2.3 多層小卷積層CNN+Dropout

2.2.4 分析大殺器ResNets

2.2.5 最後的掙扎

[CS231n-assignment2] Python從零實現的CNN在CIFAR-10上的實驗報告

python從零開始－－36 python內建類屬性　len getitem 實現 (補充26節)

python從零開始－－36 python內建類屬性　len getitem 實現 (補充26節)

從零實現jQuery的extend

用Python從零開始創建區塊鏈

從零實現一個http服務器

從零實現Lumen-JWT擴展包(序):前因

Python 從零基礎開始概述

python從零開始 -- 第1篇之環境搭建

Python從零開始寫爬蟲（二）BeautifulSoup庫使用

Python從零開始寫爬蟲（一）requests庫使用

從零實現 Spring Boot 2.0 整合 weixin-java-mp(weixin-java-tools) 獲取 openId，用於微信授權

python從零進階之路——day2

從零開始Tableau | 10.表計算-基礎

python從零開始－－35 wxPython 加 wxFromBuilder處理python桌面UI

技術 | Python從零開始系列連載（二十九）

Python從零入門教程 | 在不同的作業系統中安裝Python程式設計環境

python從零進階之路——day4

python從零學——scrapy初體驗

教程 | 僅需六步，從零實現機器學習演算法！

[CS231n-assignment2] Python從零實現的CNN在CIFAR-10上的實驗報告

1. CS231n課程

1.2 Assignment 2 使用

2. 在CIFAR-10上的表現

2.1 簡單兩層神經網路

2.2 卷積神經網路

2.2.1 三層簡單CNN

2.2.2 稍微複雜點的CNN

2.2.3 多層小卷積層CNN+Dropout

2.2.4 分析大殺器ResNets

2.2.5 最後的掙扎

相關推薦