BP演算法推導

阿新 • • 發佈：2019-01-13

這裡寫圖片描述

輸出層梯度求解過程

如上圖所示，為一個輸出層神經元，在計算輸出層梯度的時候，我們不用去考慮前一層是如何輸入的。所以我們用y來表示，圖中的y(n)表示第n個樣本在前一層的輸出值，這一層的輸入值。我們將當前節點定義為j。那麼當前節點j的輸入值之和為
這裡寫圖片描述
這裡的m是節點j前一層的輸入節點的個數，其中包括一個偏置項b。這裡的公式都很像，看公式注意下標。然後節點j的輸出要經過啟用函式，如圖所示我們定義啟用函式為。那麼當前節點j的輸出值為

圖中還有一個這裡寫圖片描述，這個表示輸入樣本的真實標籤，這是用來度量網路輸出和真實樣本之間的誤差的。此處定義誤差

然後為計算梯度，我們需要有一個損失函式，因為反傳其實就是在求損失函式對權值的梯度。
我們這裡使用平方誤差作為損失函式，所以損失函式為
這裡寫圖片描述

這裡的C為全部的輸出層神經節點
好了，把前提說清楚了，就可以開始求梯度了
這裡寫圖片描述

這樣拆分開計算的原理是：鏈式法則。

然後我們按照上面的一個個把梯度求出來，在最後去把他們乘起來。
這裡寫圖片描述

繼續

這裡注意下，分子上的求和符號展開後，除了含有這裡寫圖片描述

的哪項外，其他所求的導數都為0，，因為對當前權值來說，他們都是常數，常數的導數為0.所以我們能得到（這裡隱含層和輸出層是有點不一樣的...）
這裡寫圖片描述

現在把這些都放回原來的公式去
這裡寫圖片描述

可以看出來，當前求的梯度和前一層的輸入直接相關。一旦有了梯度，我們要做的就是用這個梯度去更新權值，當然不能直接減，太大了，所以加入一個步長這裡寫圖片描述

，得到

最後更新權值

這裡要注意，這裡寫圖片描述裡我提前加了一個負號，所以，在後面公式中我用的

去更新梯度，但是如果前面沒加負號，那麼這裡應該是減號，因為我們要找的是梯度下降的方向。

隱藏層梯度計算

前面計算了輸出層的梯度更新，這裡我們要計算隱藏層。
之所以輸出層和隱藏層要分開計算，那是因為隱藏層更加複雜，可以想象一下，隱藏層的節點，會連線下一層的所有節點，那麼在梯度反傳的時候也要從這些連線的節點去獲取梯度。所以隱藏層就不能只求一個節點的梯度了，但是原理還是一樣的，也是求損失函式對當前權值的梯度，只是計算過程變得比前面一個複雜了一點點。
這裡寫圖片描述
這裡我重新畫了兩個節點，左邊這個表示隱藏層節點j，右邊那個表示輸出層節點k，我們剛才計算的就是右邊那個，現在我們來計算前面這個。
別看我這裡只畫了一個輸出層節點k，但是真實情況不一定只有一個，如果有多個，那麼當前的節點j一定會和其有連結，那麼和其連線的節點就會有梯度反傳。
所以需要重新計算梯度，和輸出層不同的是，輸出層只需要去考慮一個輸出神經元的損失，而隱藏層需要去考慮全部全部輸出層節點的損失，如下
這裡寫圖片描述