深度學習 -- 神經網路 3

上一講介紹了2層神經網路，下面擴充套件開來，介紹通用L層神經網路

深層神經網路

構建神經網路的幾個重要步驟通過更加直觀的示意圖來表示，如下：

image.png-317.2kB

這就是深度神經網路的內部實現原理，通過多次迭代訓練後，最終得到一個模型，然後用此模型進行預測

在實現該網路之前，首先了解下面幾個重要的符號

Superscript $[l]$ denotes a quantity associated with the $l^{th}$ layer.
- Example: $a^{[L]}$ is the $L^{th}$ layer activation. $W^{[L]}$ and $b^{[L]}$ are the $L^{th}$ layer parameters.
Superscript $(i)$ denotes a quantity associated with the $i^{th}$ example.
- Example: $x^{(i)}$ is the $i^{th}$ training example.
Lowerscript $i$ denotes the $i^{th}$ entry of a vector.
- Example: $a^{[l]}_i$ denotes the $i^{th}$ entry of the $l^{th}$ layer’s activations).

1. 網路結構

image.png-67.2kB

在深度學習 – 神經網路1中，我們的例項是判斷一張圖片是否為貓，當時的準確率為70%，那麼接下來我們繼續以此為例，用多層神經網路來提高它的準確率

輸入層：輸入單元數 $n_x$ = 12288 隱藏層：總層數為L，第 $l$ 層的隱藏單元數為 $n^{[l]}$ ，啟用函式採用ReLU 輸出層：輸出單元數 $n_y$ = 1，啟用函式仍然採用sigmoid

引數維度如下表所示：

Layer	Shape of W	Shape of b	Activation	Shape of Activation
Layer 1	$(n^{[1]},12288)$	$(n^{[1]},1)$	$Z^{[1]} = W^{[1]} X + b^{[1]} $	$(n^{[1]},209)$
Layer 2	$(n^{[2]}, n^{[1]})$	$(n^{[2]},1)$	$Z^{[2]} = W^{[2]} A^{[1]} + b^{[2]}$	$(n^{[2]}, 209)$
$\vdots$	$\vdots$	$\vdots$	$\vdots$	$\vdots$
Layer L-1	$(n^{[L-1]}, n^{[L-2]})$	$(n^{[L-1]}, 1)$	$Z^{[L-1]} = W^{[L-1]} A^{[L-2]} + b^{[L-1]}$	$(n^{[L-1]}, 209)$
Layer L	$(n^{[L]}, n^{[L-1]})$	$(n^{[L]}, 1)$	$Z^{[L]} = W^{[L]} A^{[L-1]} + b^{[L]}$	$(n^{[L]}, 209)$

2. 實現過程

2.1 初始化引數

image.png-43kB 由於現在是L層，每層都有一套引數 $W^{[l]}$ 和 $b^{[l]}$ ，那麼我們就需要一個更加通用的函式，使得它能夠支援不同層數和不同的單元數，而層數和單元數都能夠簡單的通過引數來設定。initialize_parameters_deep(layer_dims)，比如layer_dims = [5, 4, 3, 1]，那麼就表示該神經網路一共4層（不包括輸入層），每層的單元數分別為5,4,3,1

關於這些引數初始化為多少合適，這個在後面的課程改善神經網路中再詳細介紹，在這裡引數W仍然為標準正態分佈隨機數*0.01，b為0

2.2 前向傳播

image.png-100.6kB 之前講過，一個隱藏單元實現兩個基本功能：線性部分和啟用部分。

線性部分很簡單，直接採用下面的公式： $Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}$ 其中，輸入層表示為 $A^{[0]} = X$ 該公式適用於神經網路的任何一層和任意數量的樣本。

啟用部分，也就是啟用函式的部分，這裡我們在隱藏層全部採用ReLU，輸出層採用sigmoid。 $A^{[l]} = g(Z^{[l]}) = g(W^{[l]}A^{[l-1]} +b^{[l]})$ 在這裡啟用函式 “g” 可以是sigmoid()或者relu()。

這裡需要注意的就是在隱藏層，啟用函式都為ReLU，實現上只是一個迴圈即可，但是對於最後一層的輸出層，它不在迴圈中，而是要單獨處理，因為它這裡採用的啟用函式式sigmoid。

2.3 計算cost

在這裡使用的cost函式J是交叉熵： $-\frac{1}{m} \sum\limits_{i = 1}^{m} (y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right))$ 這裡需要注意的就是在計算時要保持維度正確，對於該例，最終的J應該是一個1 x m的向量

2.4 反向傳播

image.png-106.5kB

反向傳播的目標就是得到損失函式 $L$ 對於每一層引數W和b的導數–> $dW^{[l]}$ , $db^{[l]}$ 。

$dW^{[l]} = \frac{\partial \mathcal{L} }{\partial W^{[l]}} = \frac{\partial \mathcal{L}} {\partial A^{[L]} } \frac{\partial A^{[L]} } {\partial Z^{[L]} } \frac{\partial Z^{[L]} } {\partial A^{[L-1]} } \cdots \frac{\partial A^{[l]} } {\partial Z^{[l]} } \frac{\partial Z^{[l]} } {\partial W^{[l]} }$

image.png-30kB

計算過程如下：(通過正向傳播的公式： $Z^{[l]} = W^{[l]} A^{[l-1]} + b^{[l]}$ ，可以推匯出第 $l$ 層引數的導數)：

$dW^{[l]} = \frac{\partial \mathcal{L} }{\partial W^{[l]}} = \frac{1}{m} dZ^{[l]} A^{[l-1] T}$ $db^{[l]} = \frac{\partial \mathcal{L} }{\partial b^{[l]}} = \frac{1}{m} \sum_{i = 1}^{m} dZ^{[l](i)}$ $dA^{[l-1]} = \frac{\partial \mathcal{L} }{\partial A^{[l-1]}} = W^{[l] T} dZ^{[l]}$ 注意： $W^{[l]}$ 和 $dW^{[l]}$

深度學習 -- 神經網路 3

深層神經網路

1. 網路結構

2. 實現過程

2.1 初始化引數

2.2 前向傳播

2.3 計算cost

2.4 反向傳播

深度學習 -- 神經網路 3

深度學習神經網路論文們可能會誤導人的地方

深度學習 --- 神經網路的學習原理（學習規則）

深度學習神經網路訓練調參技巧

【讀書1】【2017】MATLAB與深度學習——神經網路(1)

【讀書1】【2017】MATLAB與深度學習——神經網路分層(4)

[深度學習] 神經網路中的啟用函式（Activation function）

深度學習——神經網路

吳恩達神經網路與深度學習——神經網路基礎習題1

吳恩達神經網路與深度學習——神經網路基礎習題2

深度學習神經網路中文入門書籍課程推薦（附免費下載連結）

Coursera-吳恩達-深度學習-神經網路和深度學習-week1-測驗

深度學習神經網路量化

深度學習-神經網路 BP 演算法推導過程

【讀書1】【2017】MATLAB與深度學習——神經網路分層(1)

Spark MLlib Deep Learning Neural Net(深度學習-神經網路)1.2

[深度學習]神經網路的理解（MLP RBF RBM DBN DBM CNN 整理學習）

深度學習神經網路純C語言基礎版【轉】

深度學習神經網路中正則化的使用

深度學習——神經網路中的activation

深度學習 -- 神經網路 3

深層神經網路

1. 網路結構

2. 實現過程

2.1 初始化引數

2.2 前向傳播

2.3 計算cost

2.4 反向傳播

相關推薦