詳解反向傳播演算法(上)

阿新 • • 發佈：2019-01-21

1 用計算圖來解釋幾種求導方法：

1.1 計算圖

1.2 兩種求導模式：前向模式求導( forward-mode differentiation) 反向模式求導(reverse-mode differentiation)

1.3 反向求導模式（反向傳播演算法）的重要性

反向傳播演算法(Backpropagation)已經是神經網路模型進行學習的標配。但是有很多問題值得思考一下：

反向傳播演算法的作用是什麼？神經網路模型的學習演算法一般是SGD。SGD需要用到損失函式C關於各個權重引數 $w_{jk},b_j$ 的偏導數 $\frac{ \partial C }{ \partial w_{jk} } , \frac{ \partial C }{ \partial b_j}$ 。一個模型的引數w,b是非常多的，故而需要反向傳播演算法快速計算 $\frac{ \partial C }{ \partial w_{jk} } , \frac{ \partial C }{ \partial b_j}$ 。也就是說反向傳播演算法是一種計算偏導數的方法。

為什麼要提出反向傳播演算法？在反向傳播演算法提出之前人們應該想到了使用SGD學習模型，也想到了一些辦法求解網路模型的偏導數，但這些演算法求解效率比較低，所以提出反向傳播演算法來更高效的計算偏導數。（那時的網路模型還比較淺只有2-3層，引數少。估計即便不適用反向傳播這種高效的演算法也能很好的學習。一旦有人想使用更深的網路自然會遇到這個偏導數無法高效計算的問題，提出反向傳播也就勢在必行了）

反向傳播怎麼樣實現高效計算偏導數的？請先回顧一下當初我們學習微積分時是如何計算偏導數的？（鏈式法則，具體看下面）

1 用計算圖來解釋幾種求導方法：

1.1 計算圖

式子 $e=(a+b)*(b+1)$ 可以用如下計算圖表達：

令a=2,b=1則有：

如何在計算圖上表達“求導”呢？導數的含義是因變數隨自變數的變化率，例如 $\frac{\partial y }{\partial x} = 3$ 表示當x變化1個單位，y會變化3個單位。微積分中已經學過：加法求導法則是 $\frac{\partial}{\partial a}(a+b) = \frac{\partial a}{\partial a} + \frac{\partial b}{\partial a} = 1$ 乘法求導法則是 $\frac{\partial}{\partial u}uv = u\frac{\partial v}{\partial u} + v\frac{\partial u}{\partial u} = v$ 。我們在計算圖的邊上表示導數或偏導數： $\frac{ \partial e }{ \partial c } , \frac{ \partial e }{ \partial d }, \frac{ \partial c }{ \partial a }, \frac{ \partial c }{ \partial b }, \frac{ \partial d }{ \partial b }$ 如下圖

那麼 $\frac{ \partial e }{ \partial b }$ 如何求呢？ $\frac{\partial c }{ \partial b} = 1$ 告訴我們1個單位的b變化會引起1個單位的c變換， $\frac{\partial e }{ \partial c} = 2$ 告訴我們 1 個單位的c變化會引起2個單位的e變化。所以 $\frac{ \partial e }{ \partial b } = \frac{ \partial c }{ \partial b } * \frac{ \partial e }{ \partial c } = 1*2 =2$ 嗎？答案必然是錯誤。因為這樣做只考慮到了下圖橙色的路徑，所有的路徑都要考慮： $\frac{ \partial e }{ \partial b } = \frac{ \partial c }{ \partial b } * \frac{ \partial e }{ \partial c } + \frac{ \partial d }{ \partial b } * \frac{ \partial e }{ \partial d } =1*2 + 1 * 3 = 5$

所以上面的求導方法總結為一句話就是：路徑上所有邊相乘，所有路徑相加。不過這裡需要補充一條很有用的合併策略：

例如：下面的計算圖若要計算 $\frac{\partial Z}{\partial X}$ 就會有9條路徑： $\frac{\partial Z}{\partial X} = \alpha\delta + \alpha\epsilon + \alpha\zeta + \beta\delta + \beta\epsilon + \beta\zeta + \gamma\delta + \gamma\epsilon + \gamma\zeta$

如果計算圖再複雜一些，層數再多一些，路徑數量就會呈指數爆炸性增長。但是如果採用合併策略： $\frac{\partial Z}{\partial X} = (\alpha + \beta + \gamma)(\delta + \epsilon + \zeta)$ 就不會出現這種問題。這種策略不是對每一條路徑都求和，而是 “合併同類路徑”，“分階段求解”。先求X對Y的總影響 $(\alpha + \beta + \gamma)$ 再求Y對Z的總影響 $(\delta + \epsilon + \zeta)$ 最後綜合在一起。

1.2 兩種求導模式：前向模式求導( forward-mode differentiation) 反向模式求導(reverse-mode differentiation)

上面提到的求導方法都是前向模式求導( forward-mode differentiation) ：從前向後。先求X對Y的總影響 $(\alpha + \beta + \gamma)$ 再乘以Y對Z的總影響 $(\delta + \epsilon + \zeta)$ 。

另一種，反向模式求導(reverse-mode differentiation) 則是從後向前。先求Y對Z的影響再乘以X對Y的影響。

前向求導模式追蹤一個輸入如何影響每一個節點（對每一個節點進行 $\frac{\partial}{\partial X}$ 操作）反向求導模式追蹤每一個節點如何影響一個輸出（對每一個節點進行 $\frac{\partial Z}{\partial}$ 操作）。

1.3 反向求導模式（反向傳播演算法）的重要性：

讓我們再次考慮前面的例子：

如果用前向求導模式：關於b向前求導一次

如果用反向求導模式：向後求導

前向求導模式只得到了關於輸入b的偏導 $\frac{\partial e}{\partial b}$ ，還需要再次求解關於輸入a的偏導 $\frac{\partial e}{\partial a}$ （運算2遍）。而反向求導一次運算就得到了e對兩個輸入a,b的偏導 $\frac{\partial e}{\partial a}, \frac{\partial e}{\partial b}$ （運算1遍）。上面的比較只看到了2倍的加速。但如果有1億個輸入1個輸出，意味著前向求導需要操作1億遍才得到所有關於輸入的偏導，而反向求導則只需一次運算，1億倍的加速。

當我們訓練神經網路時，把“損失“ 看作 ”權重引數“ 的函式，需要計算”損失“關於每一個”權重引數“的偏導數（然後用梯度下降法學習）。神經網路的權重引數可以是百萬甚至過億級別。因此反向求導模式（反向傳播演算法）可以極大的加速學習。

詳解反向傳播演算法(上)

1 用計算圖來解釋幾種求導方法：

參考：

詳解反向傳播演算法(上)

深度學習 --- BP演算法詳解（誤差反向傳播演算法）

乾貨 | 深度學習之CNN反向傳播演算法詳解

反向傳播演算法詳解

吳恩達機器學習（第十章）---神經網路的反向傳播演算法

吳恩達機器學習 - 神經網路的反向傳播演算法吳恩達機器學習 - 神經網路的反向傳播演算法

BP反向傳播演算法

（轉載）深度學習基礎（3）——神經網路和反向傳播演算法

深度學習 --- BP演算法詳解（BP演算法的優化）

通俗理解神經網路BP反向傳播演算法

最小生成樹圖文詳解（Prim演算法）

反向傳播演算法（BP演算法）

deeplearning.ai-正向和反向傳播演算法公式

全連線神經網路的反向傳播演算法（BP）

Plupload上傳外掛詳解，多例項上傳

神經網路中反向傳播演算法（BP）

吳恩達機器學習筆記-神經網路的代價函式和反向傳播演算法

Android系列教程之七：EditText使用詳解-包含很多教程上看不到的功能演示

神經網路的反向傳播演算法中矩陣的求導方法(矩陣求導總結)

BP神經網路反向傳播演算法一步一步例項推導（Backpropagation Example）

詳解反向傳播演算法(上)

1 用計算圖來解釋幾種求導方法：

參考：

相關推薦