1. UFLDL中的一些術語

$n_l$ 表示輸出層的層數（數量），用 $L_2$ 表示第二層， $L_3$ 表示第三層， $L_{n_l}$ 表示輸出層。無論是Nielsen版還是，coursera版都是用“L”表示神經網路的層數（總層數）
小寫的 $l$ 經常來表示層數，大寫的 $L$ 加角標經常表示第幾層，
$S_l$ 表示第l層神經元的個數。
$b^{(l)}_i$ 表示第 $l+1$ 層的第 $i$ 個神經元上的偏置

2 證明步驟

2.1 代價函式

假設我們有一個固定樣本集 ${(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})}$

(x^{(1)}, y^{(1)}), . . ., (x^{(m)}, y^{(m)})

，它包含 m 個樣例。我們利用批量梯度下降法來求解神經網路。

2.1.2 單個樣例的代價函式

對於單個的樣例，其代價函式為：
\begin{align}
J(W,b; x,y) = \frac{1}{2} \left| h_{W,b}(x) - y \right|^2 \tag1\
\end{align}

2.1.2 整體代價函式

而整體代價函式為：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ J(W,b) &= \lef…$

以上關於

J(W,b)

定義中的第一項是一個均方差項。第二項是一個規則化項（也叫權重衰減項），其目的是減小權重的幅度，防止過度擬合。
怎麼理解正則化項，這項這麼多個求和符號堆在一起，看上去實在很嚇人，它其實表示了整個神經網路上的所有弧上的權重，你不要看這個項有很多，其實多層的求和公式放在一起相當於多層迴圈，$ \sum_{l=1}^{n_l-1} ; \sum_{i=1}^{s_l} ; \sum_{j=1}^{s_{l+1}} \left( W^{{(l)}_{ji}\right)}2$相當於一個三層巢狀的迴圈:

l

: 1 ->

n_l -1

i

: 1 ->

s_l

j

: 1 ->

s_{l+1}

用語言來描述就是，先從第一層開始，一層一層往後直到倒數第二層，對於每一層執行下面的操作：
從第一個神經元開始到這層最後一個神經元（從上往下數），對於每個神經元執行下面的操作：
每個神經元與下一層所有相連線的的神經元之間連線上的權重，把這個上面的權重羅列出來進行累加。
其實這個累加的部分，不僅表示出這張圖所有的權重，而且也指明瞭找出這個權重的方法。

2.2 梯度下降法

我們的目標是利用梯度下降法來求得引數W和b以使得函式 $J(W,b)$ 最小。
梯度下降法中每一次迭代都按照如下公式對引數 $\textstyle W$ 和 $\textstyle b$ 進行更新：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ W_{ij}^{(l)} &…$
其中 $\textstyle \alpha $是學習速率。
和代價函式一樣，我們也是先求出單個樣例代價函式 $\textstyle J(W,b;x,y)$ 的偏導數 $\textstyle \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y)$ 和 $\textstyle \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y)$ ，之後再推匯出整體代價函式 $\textstyle J(W,b) $的偏導數:
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \frac{\partial…$
而求單個樣例偏導採用的是反向傳播演算法

2.2.1 針對單個樣例的反向傳播演算法

在深入到具體的推導之前，先說一下大體的思路，先說目標吧：我們是利用整個神經網路的“殘差”來計算偏導的，或者說代價函式對引數（權重或者偏置）的偏導可以由當前引數所處層次的臨近層的殘差來表示。對於最後一層我們可以用神經元的輸出減去樣本中的y得到最後一層的殘差，但是對於隱藏層的殘差如何計算呢？我們主要採用了這樣幾個技術來計算隱藏層的殘差：

重新定義殘差
定義殘差為： $ {\delta^{(l)}_i} = \frac{\partial J(W,b;x,y)}{\partial z^{(l)}_i} $
隱藏層的殘差都用相鄰層的殘差來表示
充分利用相鄰兩層神經元輸入的關係（ $z^{(l)}_i$ 和 $z^{(l+1)}_j$ 之間的數量關係）建立偏導和殘差之間的關係以及相鄰兩層殘差之間的關係。

2.2.1.1 具體步驟

進行前饋傳導計算，利用前向傳導公式，得到 $\textstyle L_2, L_3, \ldots $ 直到輸出層 $\textstyle L_{n_l}$ 的啟用值。
利用重新定義的殘差計算公式來計算輸出層每個單元的殘差
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \delta^{(n_l)}…$
證明過程：
$ \delta^{(n_l)}_i = \frac{\partial}{\partial z^{n_l}i}J(W,b;x,y)= \frac{\partial}{\partial z^{n_l}i}\frac{1}{2} \left|y - h{W,b}(x)\right|^2 $ ，而對於最後一層來說 $h_{W,b}(x)$ 又可以寫成 $a_j^{(n_l)}$ ，於是$\frac{\partial}{\partial z^{n_l}i}\frac{1}{2} \left|y - h{W,b}(x)\right|^2 = \frac{\partial}{\partial z^{n_l}i}\frac{1}{2} \sum{j=1}^{S{n_l}} (y_j-a_j^{(n_l)})2 $，又由於$ a_j^{(n_l)} = f(z_j^{(n_l)}) $，於是$ \frac{\partial}{\partial z^{n_l}i}J(W,b;x,y) =\frac{\partial}{\partial z^{n_l}i}\frac{1}{2} \sum{j=1}^{S{n_l}} (y_j-f(z_j^{(n_l)}))2 $。到這一步由於$ J(W,b;x,y) $轉化成了$ z_j^{(n_l)} $的函式，於是可以求偏導了，求偏導的時候注意，由於這是累和求導的問題，其實只有當$ j=i $的時候導數才存在，$ j \neq i $時導數都為0，所以最後的結果是$ - (y_i - f(z_i^{(n_l)})) \cdot f’(z^{(n_l)}_i) $（或者寫成$ - (y_i - a^{(n_l)}_i) \cdot f’(z^{(n_l)}_i)$）
利用相鄰兩層殘差的關係來計算隱藏層的各節點的殘差
我們依然從重新定義的殘差公式開始推導，$ {\delta^{(l)}_i} = \frac{\partial J(W,b;x,y)}{\partial z^{(l)}i} $，為了讓$ l $層和$ l+1 $層發生關係，我們利用一些鏈式求導法則的技巧改寫這個公式，變為$ \frac{\partial J(W,b;x,y)}{\partial z^{(l)}i} = \sum{j=1}^{s{l+1}} \frac{\partial J}{\partial z^{(l+1)}_j} \frac{\partial z^{(l+1)}_j}{\partial z^{(l)}i} $。而其中$ \frac{\partial J}{\partial z^{{(l+1)}_j}$根據我們之前的定義就是${\delta}{(l+1)}j} $啊，所以原式等於$ \sum{j=1}^{s{l+1}} \delta^{(l+1)}_j \frac{\partial z^{(l+1)}j}{\partial z^{{(l)}_i}$，又因為$z}{(l+1)}j = \sum{k=1}^{s_l}W{(l)}{jk}a^{(l)}_k + b^{{(l+1)}_j=\sum_{k=1}}{s_l}W^{{(l)}_{jk}f(z}{(l)}_k) + b^{(l+1)}j $，於是$ \frac{\partial z^{(l+1)}j}{\partial z^{(l)}i} = W^{(l)}{ji}f’( z^{{(l)}_i)$，（這裡涉及到累和求導的問題，求導後只留下一項），於是最後的結果是${\delta}{(l)}i} = \sum{j=1}^{s{l+1}} W^{(l)}{ji} \delta^{(l+1)}_j f’(z^{(l)}_i)$，整理一下為
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \delta^{(l)}_i…$
注：原文是利用最後一層和倒數第二層之間的關係來證明的，但是我覺得利用任何中間任何兩個相鄰層來證明才更有一般性，這有點像數學歸納法。
利用殘差計算代價函式對權重的偏導
我們依然利用相鄰兩層輸入之間的關係： $z^{(l+1)}_j =\sum_{k=1}^{s_l}W^{(l)}_{jk}a^{(l)}_k + b^{(l+1)}_j$
$ \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) = \frac{\partial J}{\partial z^{(l+1)}_j} \frac{\partial z^{(l+1)}j}{\partial W{ij}^{(l)}} $ ，而 $\frac{\partial J}{\partial z^{(l+1)}_j} = \delta^{(l+1)}_j$ ，用 $z^{(l+1)}_j =\sum_{k=1}^{s_l}W^{(l)}_{jk}a^{(l)}_k + b^{(l+1)}_j$ 這個公式提現的關係求導得$a^{(l)}j $，於是
\begin{align}
\frac{\partial}{\partial W{ij}^{(l)}} J(W,b; x, y) = a^{(l)}_j \delta_i^{(l+1)} \tag{10}\
\end{align}
利用殘差計算代價函式對偏置的偏導
和上一步的過程一模一樣，只是最後一步對偏置 $b_{i}^{(l)}$ 進行求導。於是結果為：

\begin{align}
\frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y) &= \delta_i^{(l+1)}. \tag{11}\
\end{align}

2.2.1.2 矩陣形式

上面是的推導結果是分量形式的，如果利用矩陣形式的，則公式(8)、(9)、(10)、(11)則表示為：

輸出層殘差計算公式：
\begin{align}
\delta^{(n_l)}= - (y - a^{(n_l)}) \bullet f’(z^{(n_l)}) \tag{12}\
\end{align}
相鄰兩層殘差的關係：
\begin{align}

相關推薦

反向傳播演算法(UFLDL版)

1. UFLDL中的一些術語 nln_lnl表示輸出層的層數（數量），用L2L_2L2表示第二層，L3L_3L3表示第三層，LnlL_{n_l}Lnl表示輸出層。無論是Nielsen版還是，coursera版都是用“L”表示神經網路的層數（總層數）

反向傳播演算法的理解(Nielsen版)

在學習standford大學機器學習在coursera上的公開課中，對於其中講授的神經網路的反向傳播演算法不是很清楚，經過網上查詢資料，覺得Michael Nielsen的「Neural Networks and Deep Learning」中的解釋特別清楚，於

吳恩達機器學習（第十章）---神經網路的反向傳播演算法

一、簡介我們在執行梯度下降的時候，需要求得J(θ)的導數，反向傳播演算法就是求該導數的方法。正向傳播，是從輸入層從左向右傳播至輸出層；反向傳播就是從輸出層，算出誤差從右向左逐層計算誤差，注意：第一層不計算，因為第一層是輸入層，沒有誤差。二、如何計算設為第l層，第j個的誤差。

吳恩達機器學習 - 神經網路的反向傳播演算法吳恩達機器學習 - 神經網路的反向傳播演算法

原吳恩達機器學習 - 神經網路的反向傳播演算法 2018年06月21日 20:59:35 離殤灬孤狼閱讀數：373

BP反向傳播演算法

<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script> #該程式碼加入MathJax引擎，用以顯

（轉載）深度學習基礎（3）——神經網路和反向傳播演算法

原文地址：https://www.zybuluo.com/hanbingtao/note/476663 轉載在此的目的是自己做個筆記，日後好複習，如侵權請聯絡我！！　　在上一篇文章中，我們已經掌握了機器學習的基本套路，對模型、目標函式、優化演算法這些概念有了一定程度的理解，而且已經會訓練單個的感知器或者

深度學習 --- BP演算法詳解（誤差反向傳播演算法）

本節開始深度學習的第一個演算法BP演算法，本打算第一個演算法為單層感知器，但是感覺太簡單了，不懂得找本書看看就會了，這裡簡要的介紹一下單層感知器：圖中可以看到，單層感知器很簡單，其實本質上他就是線性分類器，和機器學習中的多元線性迴歸的表示式差不多，因此它具有多元線性迴歸的優點和缺點。

通俗理解神經網路BP反向傳播演算法

轉載自通俗理解神經網路BP反向傳播演算法通俗理解神經網路BP反向傳播演算法在學習深度學習相關知識，無疑都是從神經網路開始入手，在神經網路對引數的學習演算法bp演算法，接觸了很多次，每一次查詢資料學習，都有著似懂非懂的感覺，這次趁著思路比較清楚，也為了能夠讓一些像

反向傳播演算法（BP演算法）

BP演算法(即反向傳播演算法)，適合於多層神經元網路的一種學習演算法，它建立在梯度下降法的基礎上。BP網路的輸入輸出關係實質上是一種對映關係：一個n輸入m輸出的BP神經網路所完成的功能是從n維歐氏空間向m維歐氏空間中一有限域的連續對映，這一對映具有高度非線性。它的資訊處理能力來源於簡單非線性函式的多

deeplearning.ai-正向和反向傳播演算法公式

【正向和反向傳播】【梯度下降i法】【邏輯迴歸代價函式】【實現神經網路的步驟】【淺層神經網路例子】 import numpy as np def sigmoid(x): """ Compute the sigmoid of x

全連線神經網路的反向傳播演算法（BP）

一、預熱篇參考連結：http://colah.github.io/posts/2015-08-Backprop/ 要理解的主要點：路徑上所有邊相乘，所有路徑相加反向傳播演算法(Backpropagation)已經是神經網路模型進行學習的標配。但是有很多問題值得思考一下：反向傳播

神經網路中反向傳播演算法（BP）

神經網路中反向傳播演算法（BP）本文只是對BP演算法中的一些內容進行一些解釋，所以並不是嚴格的推導，因為我在推導的過程中遇見很多東西，當時不知道為什麼要這樣，所以本文只是對BP演算法中一些東西做點自己的合理性解釋，也便於自己理解。要想看懂本文，要懂什麼是神經網路，對前向傳播以

吳恩達機器學習筆記-神經網路的代價函式和反向傳播演算法

代價函式在神經網路中，我們需要定義一些新的引數來表示代價函式。 L = total number of layers in the network $s_l$ = number of units (not counting bias unit) in layer

神經網路的反向傳播演算法中矩陣的求導方法(矩陣求導總結)

前言神經網路的精髓就是反向傳播演算法,其中涉及到一些矩陣的求導運算,只有掌握了與矩陣相關的求導法則才能真正理解神經網路. 與矩陣有關的求導主要分為兩類: 標量 f 對矩陣 W的導數 (其結果是和W同緯度的矩陣,也就是f對W逐元素求導排成與W尺寸相同的矩陣

BP神經網路反向傳播演算法一步一步例項推導（Backpropagation Example）

1. loss 函式的優化籠統來講：設計loss函式是為了衡量網路輸出值和理想值之間的差距，儘管網路的直接輸出並不顯式的包含權重因子，但是輸出是同權重因子直接相關的，因此仍然可以將loss函式視作在權重因子空間中的一個函式。可以將loss 記為E(w)，這裡為

LSTM神經網路之前向反向傳播演算法

上篇文章我們已經學習了迴圈神經網路的原理，並指出RNN存在嚴重的梯度爆炸和梯度消失問題，因此很難處理長序列的資料。本篇文章，我們將學習長短期記憶網路(LSTM,Long Short Term Memory)，看LSTM解決RNN所帶來的梯度消失和梯度爆炸問題。 1.從RNN到LSTM

迴圈神經網路之前向反向傳播演算法

前面我們已經介紹了深度神經網路和卷積神經網路，這些演算法都是前向反饋，模型的輸出和模型本身沒有關聯關係。今天我們學習輸出和模型間有反饋的神經網路，迴圈神經網路(Recurrent Neual Networks)，其廣泛應用於自然語言處理中的語音識別，書寫識別和機器翻譯等領域。 1.R

神經網路中反向傳播演算法(backpropagation)的pytorch實現，pytorch教程中的程式碼解讀以及其他一些疑問與解答

pytorch的官網上有一段教程，是使用python的numpy工具實現一個簡單的神經網路的bp演算法。下面先貼上自己的程式碼： import numpy as np N,D_in,H,D_out = 4,10,8,5 x = np.random.randn(N,D_i

卷積神經網路之前向反向傳播演算法

前面我們已經介紹了深度神經網路和卷積神經網路，這些演算法都是前向反饋，模型的輸出和模型本身沒有關聯關係。今天我們學習輸出和模型間有反饋的神經網路，迴圈神經網路(Recurrent Neual Networks)，其廣泛應用於自然語言處理中的語音識別，書寫識別和機

反向傳播演算法(BP演算法)

具體實現: https://yongyuan.name/blog/back-propagtion.html 反向傳播演算法（Backpropagation）是目前用來訓練人工神經網路（Artificial Neural Network，ANN）的最常用且最有效的演算法。其主要思想是：（

反向傳播演算法(UFLDL版)

1. UFLDL中的一些術語

2 證明步驟

2.1 代價函式

2.1.2 單個樣例的代價函式

2.1.2 整體代價函式

2.2 梯度下降法

2.2.1 針對單個樣例的反向傳播演算法

2.2.1.1 具體步驟

2.2.1.2 矩陣形式

相關推薦