DNN反向傳播推導的嚴格表述

阿新 • • 發佈：2019-02-02

近期把DNN的反向傳播又好好的研究了一下。之前一直有疑慮是因為很多文件裡邊出現 $\frac{\partial z^{(l + 1)}}{\partial z^{(l)}}$ 這種表示式，然後 $z^{(l + 1)}$ 和 $z^{(l)}$ 還是矩陣，這下就變得非常煩人了，因為沒有哪本數學書定義了矩陣對矩陣的導數。只有標量函式對矩陣，矩陣對標量，標量對向量，向量對標量以及向量對向量。所以我覺得有必要在好好把這塊弄一下，寫清楚。

首先是DNN的模型：

\begin{matrix} (1028) & {\begin{array}{lr} z^{(l + 1)} = θ^{(l + 1)} \cdot a^{(l)} + b^{(l + 1)} \cdot 1^{T}, \\ a^{(l)} = g (z^{(l + 1)}), & l = 1, 2, 3, \dots, N \\ J = J (a^{(N)}) \end{array} \end{matrix}

這裡邊， $a^{(1)} = X$ 也就是輸入， $1$ 是列向量。然後：

\begin{matrix} (1029) & X = (\begin{matrix} | & \dots & | \\ X_{1} & \dots & X_{m} \\ | & \dots & | \end{matrix}) \end{matrix}

也就是說，一共有m個樣本。

通常的文章怎麼描述的呢？定義 $δ^{(l)} = \frac{\partial J}{\partial z^{(l)}}$ ，假如計算出了 $δ^{(l)}$ 那麼 $\frac{\partial J}{\partial θ^{(l)}} = \frac{\partial J}{\partial z^{(l)}} \cdot \frac{\partial z^{(l)}}{\partial θ^{(l)}}$ ，然後 $\frac{\partial J}{\partial z^{(l - 1)}} = \frac{\partial J}{\partial z^{(l)}} \cdot \frac{\partial z^{(l)}}{\partial z^{(l - 1)}}$

DNN反向傳播推導的嚴格表述

DNN反向傳播推導的嚴格表述

resnet的反向傳播推導（對權重的更新）

深度學習——DNN反向傳播

梯度下降法和誤差反向傳播推導

《神經網路的梯度推導與程式碼驗證》之FNN（DNN）的前向傳播和反向梯度推導

《神經網路的梯度推導與程式碼驗證》之FNN（DNN）前向和反向傳播過程的程式碼驗證

反向傳播算法（過程及公式推導）

反向傳播的推導

機器學習之數學系列（二）邏輯迴歸反向傳播數學推導

BP反向傳播（包含公式推導和程式碼實踐）

DNN前向、反向傳播及正則化

神經網路的反向傳播公式的推導

BP神經網路反向傳播演算法一步一步例項推導（Backpropagation Example）

DNN網路（二）反向傳播演算法

DNN網絡（二）反向傳播算法

機器學習反向傳播演算法的數學推導

反向傳播演算法推導

深層神經網路和卷積神經網路的反向傳播過程推導

超詳細的長短時記憶LSTM和門控迴圈單元GRU的反向傳播公式推導！

反向傳播演算法（過程及公式推導）