反向傳導(BP)演算法

阿新 • • 發佈：2018-11-10

假設我們有一個固定樣本集 $\textstyle \{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}$ ，它包含 $\textstyle m$ 個樣例。我們可以用批量梯度下降法來求解神經網路。具體來講，對於單個樣例 $\textstyle (x,y)$ ，其代價函式為：

$\begin{align}J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2.\end{align}$

這是一個（二分之一的）方差代價函式。給定一個包含 $\textstyle m$ 個樣例的資料集，我們可以定義整體代價函式為：

$\begin{align}J(W,b)&= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\&= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2\end{align}$

以上關於 $\textstyle J(W,b)$ 定義中的第一項是一個均方差項。第二項是一個規則化項（也叫權重衰減項），其目的是減小權重的幅度，防止過度擬合。

[注：通常權重衰減的計算並不使用偏置項 $\textstyle b^{(l)}_i$ ，比如我們在 $\textstyle J(W, b)$ 的定義中就沒有使用。一般來說，將偏置項包含在權重衰減項中只會對最終的神經網路產生很小的影響。如果你在斯坦福選修過CS229（機器學習）課程，或者在YouTube上看過課程視訊，你會發現這個權重衰減實際上是課上提到的貝葉斯規則化方法的變種。在貝葉斯規則化方法中，我們將高斯先驗概率引入到引數中計算MAP（極大後驗）估計（而不是極大似然估計）。]

權重衰減引數 $\textstyle \lambda$ 用於控制公式中兩項的相對重要性。在此重申一下這兩個複雜函式的含義： $\textstyle J(W,b;x,y)$ 是針對單個樣例計算得到的方差代價函式； $\textstyle J(W,b)$ 是整體樣本代價函式，它包含權重衰減項。

以上的代價函式經常被用於分類和迴歸問題。在分類問題中，我們用 $\textstyle y = 0$ 或 $\textstyle 1$ ，來代表兩種型別的標籤（回想一下，這是因為 sigmoid啟用函式的值域為 $\textstyle [0,1]$ ；如果我們使用雙曲正切型啟用函式，那麼應該選用 $\textstyle -1$ 和 $\textstyle +1$ 作為標籤）。對於迴歸問題，我們首先要變換輸出值域（譯者注：也就是 $\textstyle y$ ），以保證其範圍為 $\textstyle [0,1]$ （同樣地，如果我們使用雙曲正切型啟用函式，要使輸出值域為 $\textstyle [-1,1]$ ）。

我們的目標是針對引數 $\textstyle W$ 和 $\textstyle b$ 來求其函式 $\textstyle J(W,b)$ 的最小值。為了求解神經網路，我們需要將每一個引數 $\textstyle W^{(l)}_{ij}$

和 $\textstyle b^{(l)}_i$ 初始化為一個很小的、接近零的隨機值（比如說，使用正態分佈 $\textstyle {Normal}(0,\epsilon^2)$ 生成的隨機值，其中 $\textstyle \epsilon$ 設定為 $\textstyle 0.01$ ），之後對目標函式使用諸如批量梯度下降法的最優化演算法。因為 $\textstyle J(W, b)$ 是一個非凸函式，梯度下降法很可能會收斂到區域性最優解；但是在實際應用中，梯度下降法通常能得到令人滿意的結果。最後，需要再次強調的是，要將引數進行隨機初始化，而不是全部置為 $\textstyle 0$ 。如果所有引數都用相同的值作為初始值，那麼所有隱藏層單元最終會得到與輸入值有關的、相同的函式（也就是說，對於所有 $\textstyle i$ ， $\textstyle W^{(1)}_{ij}$ 都會取相同的值，那麼對於任何輸入 $\textstyle x$ 都會有： $\textstyle a^{(2)}_1 = a^{(2)}_2 = a^{(2)}_3 = \ldots$ ）。隨機初始化的目的是使對稱失效。

梯度下降法中每一次迭代都按照如下公式對引數 $\textstyle W$ 和 $\textstyle b$ 進行更新：

$\begin{align}W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b)\end{align}$

其中 $\textstyle \alpha$ 是學習速率。其中關鍵步驟是計算偏導數。我們現在來講一下反向傳播演算法，它是計算偏導數的一種有效方法。

我們首先來講一下如何使用反向傳播演算法來計算 $\textstyle \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y)$ 和 $\textstyle \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y)$ ，這兩項是單個樣例 $\textstyle (x,y)$ 的代價函式 $\textstyle J(W,b;x,y)$ 的偏導數。一旦我們求出該偏導數，就可以推匯出整體代價函式 $\textstyle J(W,b)$ 的偏導數：

$\begin{align}\frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) &=\left[ \frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \right] + \lambda W_{ij}^{(l)} \\\frac{\partial}{\partial b_{i}^{(l)}} J(W,b) &=\frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)})\end{align}$

以上兩行公式稍有不同，第一行比第二行多出一項，是因為權重衰減是作用於 $\textstyle W$ 而不是 $\textstyle b$ 。

反向傳播演算法的思路如下：給定一個樣例 $\textstyle (x,y)$ ，我們首先進行“前向傳導”運算，計算出網路中所有的啟用值，包括 $\textstyle h_{W,b}(x)$ 的輸出值。之後，針對第 $\textstyle l$ 層的每一個節點 $\textstyle i$ ，我們計算出其“殘差” $\textstyle \delta^{(l)}_i$ ，該殘差表明了該節點對最終輸出值的殘差產生了多少影響。對於最終的輸出節點，我們可以直接算出網路產生的啟用值與實際值之間的差距，我們將這個差距定義為 $\textstyle \delta^{(n_l)}_i$ （第 $\textstyle n_l$ 層表示輸出層）。對於隱藏單元我們如何處理呢？我們將基於節點（譯者注：第 $\textstyle l+1$ 層節點）殘差的加權平均值計算 $\textstyle \delta^{(l)}_i$ ，這些節點以 $\textstyle a^{(l)}_i$ 作為輸入。下面將給出反向傳導演算法的細節：

進行前饋傳導計算，利用前向傳導公式，得到 $\textstyle L_2, L_3, \ldots$ 直到輸出層 $\textstyle L_{n_l}$ 的啟用值。
對於第 $\textstyle n_l$ 層（輸出層）的每個輸出單元 $\textstyle i$ ，我們根據以下公式計算殘差：

$\begin{align}\delta^{(n_l)}_i= \frac{\partial}{\partial z^{(n_l)}_i} \;\; \frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i)\end{align}$

[譯者注：

$\begin{align}\delta^{(n_l)}_i &= \frac{\partial}{\partial z^{n_l}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 \\ &= \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-a_j^{(n_l)})^2 = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \\ &= - (y_i - f(z_i^{(n_l)})) \cdot f'(z^{(n_l)}_i) = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i)\end{align}$

]
對 $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各個層，第 $\textstyle l$ 層的第 $\textstyle i$ 個節點的殘差計算方法如下：

$\delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i)$

{譯者注：

$\begin{align}\delta^{(n_l-1)}_i &=\frac{\partial}{\partial z^{n_l-1}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}}(y_j-a_j^{(n_l)})^2 \\&= \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-a_j^{(n_l)})^2 = \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-f(z_j^{(n_l)}))^2 \\&= \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot \frac{\partial}{\partial z_i^{(n_l-1)}}f(z_j^{(n_l)}) = \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot f'(z_j^{(n_l)}) \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{(n_l-1)}} \\&= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{n_l-1}} = \sum_{j=1}^{S_{n_l}} \left(\delta_j^{(n_l)} \cdot \frac{\partial}{\partial z_i^{n_l-1}}\sum_{k=1}^{S_{n_l-1}}f(z_k^{n_l-1}) \cdot W_{jk}^{n_l-1}\right) \\&= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot W_{ji}^{n_l-1} \cdot f'(z_i^{n_l-1}) = \left(\sum_{j=1}^{S_{n_l}}W_{ji}^{n_l-1}\delta_j^{(n_l)}\right)f'(z_i^{n_l-1})\end{align}$

將上式中的 $\textstyle n_l-1$ 與 $\textstyle n_l$ 的關係替換為 $\textstyle l$ 與 $\textstyle l+1$ 的關係，就可以得到：

$\delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i)$

以上逐次從後向前求導的過程即為“反向傳導”的本意所在。]
計算我們需要的偏導數，計算方法如下：

$\begin{align}\frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \delta_i^{(l+1)} \\\frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y) &= \delta_i^{(l+1)}.\end{align}$

最後，我們用矩陣-向量表示法重寫以上演算法。我們使用“ $\textstyle \bullet$ ” 表示向量乘積運算子（在Matlab或Octave裡用“.*”表示，也稱作阿達馬乘積）。若 $\textstyle a = b \bullet c$ ，則 $\textstyle a_i = b_ic_i$ 。在上一個教程中我們擴充套件了 $\textstyle f(\cdot)$ 的定義，使其包含向量運算，這裡我們也對偏導數 $\textstyle f'(\cdot)$ 也做了同樣的處理（於是又有 $\textstyle f'([z_1, z_2, z_3]) = [f'(z_1), f'(z_2), f'(z_3)]$ ）。

那麼，反向傳播演算法可表示為以下幾個步驟：

進行前饋傳導計算，利用前向傳導公式，得到 $\textstyle L_2, L_3, \ldots$ 直到輸出層 $\textstyle L_{n_l}$ 的啟用值。
對輸出層（第 $\textstyle n_l$ 層），計算：

$\begin{align}\delta^{(n_l)}= - (y - a^{(n_l)}) \bullet f'(z^{(n_l)})\end{align}$
對於 $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各層，計算：

$\begin{align}\delta^{(l)} = \left((W^{(l)})^T \delta^{(l+1)}\right) \bullet f'(z^{(l)})\end{align}$
計算最終需要的偏導數值：

$\begin{align}\nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\\nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}.\end{align}$

實現中應注意：在以上的第2步和第3步中，我們需要為每一個 $\textstyle i$ 值計算其 $\textstyle f'(z^{(l)}_i)$ 。假設 $\textstyle f(z)$ 是sigmoid函式，並且我們已經在前向傳導運算中得到了 $\textstyle a^{(l)}_i$ 。那麼，使用我們早先推匯出的 $\textstyle f'(z)$ 表示式，就可以計算得到 $\textstyle f'(z^{(l)}_i) = a^{(l)}_i (1- a^{(l)}_i)$ 。

最後，我們將對梯度下降演算法做個全面總結。在下面的虛擬碼中， $\textstyle \Delta W^{(l)}$ 是一個與矩陣 $\textstyle W^{(l)}$ 維度相同的矩陣， $\textstyle \Delta b^{(l)}$ 是一個與 $\textstyle b^{(l)}$ 維度相同的向量。注意這裡“ $\textstyle \Delta W^{(l)}$ ”是一個矩陣，而不是“ $\textstyle \Delta$ 與 $\textstyle W^{(l)}$ 相乘”。下面，我們實現批量梯度下降法中的一次迭代：

對於所有 $\textstyle l$ ，令 $\textstyle \Delta W^{(l)} := 0$ , $\textstyle \Delta b^{(l)} := 0$ （設定為全零矩陣或全零向量）
對於 $\textstyle i = 1$ 到 $\textstyle m$ ，
1. 使用反向傳播演算法計算 $\textstyle \nabla_{W^{(l)}} J(W,b;x,y)$ 和 $\textstyle \nabla_{b^{(l)}} J(W,b;x,y)$ 。
2. 計算 $\textstyle \Delta W^{(l)} := \Delta W^{(l)} + \nabla_{W^{(l)}} J(W,b;x,y)$ 。
3. 計算 $\textstyle \Delta b^{(l)} := \Delta b^{(l)} + \nabla_{b^{(l)}} J(W,b;x,y)$ 。
更新權重引數：

$\begin{align}W^{(l)} &= W^{(l)} - \alpha \left[ \left(\frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)}\right] \\b^{(l)} &= b^{(l)} - \alpha \left[\frac{1}{m} \Delta b^{(l)}\right]\end{align}$