機器學習之矩陣微積分及其性質

leboop文章，禁止轉載！

1、矩陣符號約定

（1）標量：使用普通小寫字母表示，例如 $a,x,y$ ；

（2）列向量：使用加粗的小寫字母來表示，比如 $\mathbf{a,x,y}$ 等；

（3）行向量：使用列向量的轉置表示，例如 $\mathbf{a}^{T}$ ；

（4）矩陣：使用加粗的大寫字母表示，比如 $\mathbf{A},\mathbf{B},\mathbf{X},\mathbf{Y}$ 等；

使用 $(\mathbf{A})_{ij}$ 表示矩陣 $\mathbf{A}$ 的第 $i$ 行和第 $j$ 列元素，也就是 $a_{ij}$ ，即 $(\mathbf{A})_{ij}=a_{ij}$ ；

使用 $(\mathbf{A})_{i,:}$ 表示矩陣 $\mathbf{A}$ 的第 $i$ 行；

使用 $(\mathbf{A})_{:,j}$ 表示矩陣 $\mathbf{A}$ 的第 $j$ 列；

（5）矩陣的跡：是指矩陣對角線上的元素之和，使用 $tr()$ 來表示，例如 $tr(\mathbf{A})$ 表示矩陣 $\mathbf{A}$ 的對角線元素之和，當然只有行數和列數相同的的矩陣才有跡的概念；

（6）矩陣的行列式：使用 $|\mathbf{A}|$ 來表示矩陣 $\mathbf{A}$ 的行列式，當然也只有行數和列數相同的矩陣才有行列式的概念；

注：

標量、行向量和列向量都可以看成是矩陣的特殊情況，例如：

（1）對於一個標量 $x$ ，可以看成是 $1\times 1$ 階的矩陣；

（2）對於 $n$ 列的行向量 $\mathbf{a}^{T}=\begin{bmatrix} a_1 &... & a_n \end{bmatrix}$ ，可以看成是 $1\times n$ 階的矩陣；

（3）對於 $m$ 行的列向量

$\mathbf{x}=\begin{bmatrix} x_1\\ \vdots\\ x_m \end{bmatrix}$ ，可以看成是 $m\times 1$ 階的矩陣。

同時標量又可以看成是行向量或列向量的特殊情況。

2、標量、向量和矩陣求導符號約定

矩陣求導中，自變數和因變數可以是標量、向量和矩陣中的一種，所以總共有 $3\times 3=9$ 種可能性。如表格所示：

型別	標量（ $y$ ）	向量（ $\mathbf{y}$ ）	矩陣（ $\mathbf{Y}$ ）
標量（ $x$ ）	$\frac{\mathrm{dy} }{\mathrm{d} x}$	$\frac{\partial \mathbf{y}}{\partial x}$	$\frac{\partial \mathbf{Y}}{\partial x}$
向量（ $\mathbf{x}$ ）	$\frac{\partial y}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$
矩陣（ $\mathbf{X}$ ）	$\frac{\partial y}{\partial \mathbf{X}}$

其中當自變數和因變數都是標量時，就是我們最熟知的求導 $\frac{\mathrm{dy} }{\mathrm{d} x}$

，其中 $y=y(x)$ 是 $x$ 的函式，這裡我們對這種情況不再討論。表中我們還寫出了其他5種求導情況，下面我們逐步討論這5種求導情況。

假設 $x$ ， $y$ 是兩個標量，

$\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ， $\mathbf{y}=\begin{bmatrix} y_{1}\\ \vdots\\ y_{m} \end{bmatrix}$ 是兩個向量，

$\mathbf{X}=\begin{bmatrix} & x_{11}&... &x_{1q}\\ & \vdots& \vdots &\vdots\\ & x_{p1} & ...&x_{pq} & \end{bmatrix}$ ， $\mathbf{Y}=\begin{bmatrix} & y_{11}&... &y_{1n}\\ & \vdots& \vdots &\vdots\\ & y_{m1} & ...&y_{mn} & \end{bmatrix}$ 是兩個矩陣，矩陣有時使用向量表述更方便，例如：

$\mathbf{X}=\begin{bmatrix} \mathbf{x_1} &... &\mathbf{x_q} \end{bmatrix}$ ， $\mathbf{Y}=\begin{bmatrix} \mathbf{y_1} &... &\mathbf{y_n} \end{bmatrix}$ ，其中

$\mathbf{x}_j=\begin{bmatrix} x_{1j}\\ \vdots\\ x_{pj} \end{bmatrix}\; \; (1<=j<=q)$ 表示矩陣 $\mathbf{X}$ 的第 $j$ 列， $\mathbf{y}_k=\begin{bmatrix} y_{1k}\\ \vdots\\ y_{mk} \end{bmatrix}\; \; (1<=k<=n)$ 表示矩陣 $\mathbf{Y}$ 的第 $k$ 列，

則

求導型別 \ 佈局方式	分子佈局	分母佈局
標量-向量	$\frac{\partial y}{\partial \mathbf{x}} = \left[ \frac{\partial y}{\partial x_1} \frac{\partial y}{\partial x_2} \cdots \frac{\partial y}{\partial x_n} \right].$	$\frac{\partial y}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y}{\partial x_1}\\ \frac{\partial y}{\partial x_2}\\ \vdots\\ \frac{\partial y}{\partial x_n}\\ \end{bmatrix}.$
向量-標量	$\frac{\partial \mathbf{y}}{\partial x} = \begin{bmatrix} \frac{\partial y_1}{\partial x}\\ \frac{\partial y_2}{\partial x}\\ \vdots\\ \frac{\partial y_m}{\partial x}\\ \end{bmatrix}.$	$\frac{\partial \mathbf{y}}{\partial x} = \left[ \frac{\partial y_1}{\partial x} \frac{\partial y_2}{\partial x} \cdots \frac{\partial y_m}{\partial x} \right].$
向量-向量	$\frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n}\\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n}\\ \end{bmatrix}.$	$\frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_2}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_1}\\ \frac{\partial y_1}{\partial x_2} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_2}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_1}{\partial x_n} & \frac{\partial y_2}{\partial x_n} & \cdots & \frac{\partial y_m}{\partial x_n}\\ \end{bmatrix}.$
標量-矩陣	$\frac{\partial y}{\partial \mathbf{X}} = \begin{bmatrix} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{21}} & \cdots & \frac{\partial y}{\partial x_{p1}}\\ \frac{\partial y}{\partial x_{12}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{p2}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y}{\partial x_{1q}} & \frac{\partial y}{\partial x_{2q}} & \cdots & \frac{\partial y}{\partial x_{pq}}\\ \end{bmatrix}.$	$\frac{\partial y}{\partial \mathbf{X}} = \begin{bmatrix} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}} & \cdots & \frac{\partial y}{\partial x_{1q}}\\ \frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{2q}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y}{\partial x_{p1}} & \frac{\partial y}{\partial x_{p2}} & \cdots & \frac{\partial y}{\partial x_{pq}}\\ \end{bmatrix}.$
矩陣-標量	$\frac{\partial \mathbf{Y}}{\partial x} = \begin{bmatrix} \frac{\partial y_{11}}{\partial x} & \frac{\partial y_{12}}{\partial x} & \cdots & \frac{\partial y_{1n}}{\partial x}\\ \frac{\partial y_{21}}{\partial x} & \frac{\partial y_{22}}{\partial x} & \cdots & \frac{\partial y_{2n}}{\partial x}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_{m1}}{\partial x} & \frac{\partial y_{m2}}{\partial x} & \cdots & \frac{\partial y_{mn}}{\partial x}\\ \end{bmatrix}.$	無約定

表中分子佈局和分母佈局只是兩種不同的約定方式，並無多大區別。在做一些證明推導時需要約定其中的一種方式，有時也會同時約定兩種方式，比如標量-向量約定分子佈局方式，向量-標量可以約定分母佈局方式，但對於同一種類型求導只能約定一種方式。為了不產生混淆，我建議在同一個環境下約定一種方式，本文我們約定分子佈局方式。

佈局方式記憶方法：

（1）分子佈局：分子不動，分母轉置後依次求導

（2）分母佈局：分母不動，分子轉置後依次求導

注意到，對於同一種類型的求導，分子佈局和分母佈局存在轉置關係。

對於分子佈局方式：

（1）向量-標量和標量-向量求導約定都可以看成是向量-向量求導約定的特例，即

$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\begin{bmatrix} \frac{\partial y_1}{\partial \mathbf{x}}\\\vdots \\\frac{\partial y_m}{\partial \mathbf{x}} \end{bmatrix}=\begin{bmatrix} \frac{\partial \mathbf{y}}{\partial x_1} &... &\frac{\partial \mathbf{y}}{\partial x_n} \end{bmatrix}$

（2）向量-標量求導約定可以看成是矩陣-標量求導約定的特例，即

$\frac{\partial \mathbf{Y}}{\partial x}=\begin{bmatrix} \frac{\partial \mathbf{y_1}}{\partial x}&... &\frac{\partial \mathbf{y_n}}{\partial x} \end{bmatrix}$

（3）標量-向量求導約定可以看成是標量-矩陣求導約定的特例，即

$\frac{\partial y}{\partial \mathbf{X}}=\begin{bmatrix} \frac{\partial y}{\partial \mathbf{x_1}}\\\vdots \\\frac{\partial y}{\partial \mathbf{x_q}} \end{bmatrix}$

特例的情況給了我們一些思路，向量-標量和標量-向量求導的性質是不是可以看成是向量-向量求導或者標量-矩陣求導的特例呢？我們接下來就回答這個問題。

特別提醒：以下證明均約定是分子佈局。

3、向量-向量求導性質

原文地址

（1）假設 $\mathbf{a}=\begin{bmatrix} a_{1}\\ \vdots\\ a_{m} \end{bmatrix}$ 和 $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，如果 $\mathbf{a}$ 不是 $\mathbf{x}$ 的函式，則 $\frac{\partial \mathbf{a}}{\partial \mathbf{x}}=\mathbf{0}_{m\times n}$ ，其中 $\mathbf{0}_{m\times n}$ 表示 $m\times n$ 階零矩陣（每個元素都是0）

證明：

$\frac{\partial \mathbf{a}}{\partial \mathbf{x}}={\begin{bmatrix} & \frac{\partial a_1}{\partial x_{1}}&... &\frac{\partial a_1}{\partial x_{n}}\\ & \vdots& \vdots &\vdots\\ & \frac{\partial a_m}{\partial x_1} & ...&\frac{\partial a_m}{\partial x_n} & \end{bmatrix}}=\mathbf{0}_{m\times n}$ 。

（如果 $\mathbf{a}$ 不是 $\mathbf{x}$ 的函式，對這兩個向量中的每個分量 $a_i$ 和 $x_j$ ，都有 $\frac{\partial a_i}{\partial x_j}=0(1<=i<=m,1<=j<=n)$ ）

事實上，對於分母佈局， $\frac{\partial \mathbf{a}}{\partial \mathbf{x}}=\mathbf{0}_{n\times m}$ 。

注：這可以看成常數求導的擴充套件。

原文中認為分子佈局和分母佈局得到的是同一個結果，從我們的證明結果來看，並不是同一個結果，而是存在轉置關係。

（2）假設 $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，則 $\frac{\partial \mathbf{x}}{\partial \mathbf{x}}=\mathbf{I}_{n\times n}$ ，其中 $\mathbf{I}_{n\times n}$ 表示 $n\times n$ 階單位矩陣（對角線元素為1，其餘元素為0）

證明：

$\frac{\partial \mathbf{x}}{\partial \mathbf{x}}={\begin{bmatrix} & \frac{\partial x_1}{\partial x_{1}}&... &\frac{\partial x_1}{\partial x_{n}}\\ & \vdots& \vdots &\vdots\\ & \frac{\partial x_n}{\partial x_1} & ...&\frac{\partial x_n}{\partial x_n} & \end{bmatrix}}=\mathbf{I}_{n\times n}$ 。

事實上，對於分母佈局，這個結論也是成立的。

注：這條可以看成y=x對x求導的擴充套件

（3）假設 $\mathbf{A}=\begin{bmatrix} & a_{11}&... &a_{1p}\\ & \vdots& \vdots &\vdots\\ & a_{m1} & ...&a_{mp} & \end{bmatrix}$ 和 $\mathbf{u}=\mathbf{u}(\mathbf{x})$ ，其中 $\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}$ ， $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，且 $\mathbf{A}$ 不是 $\mathbf{x}$ 的函式，則 $\frac{\partial \mathbf{Au}}{\partial \mathbf{x}}=\mathbf{A}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$

證明：假設

$\mathbf{Au}=\begin{bmatrix} b_1\\ \vdots\\ b_m \end{bmatrix}$ ，

其中 $b_i=\sum\limit_{k=1}^{p}a_{ik}u_k\; (1=<i<=m)$ ，

$(\frac{\partial \mathbf{Au}}{\partial \mathbf{x}})_{ij}=\frac{\partial b_i}{\partial x_j}=\sum\limits_{k=1}^{p}a_{ik}\frac{\partial u_k}{\partial x_j}$ （1）

$(\mathbf{A}\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}=\mathbf{A}_{i,:}(\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{:,j}=\begin{bmatrix} a_{i1} &... &a_{ip} \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial x_j}\\ \vdots\\ \frac{\partial u_p}{\partial x_j} \end{bmatrix}=\sum\limits_{k=1}^{p}a_{ik}\frac{\partial u_k}{\partial x_j}$ （2）

（1）式和（2）式相等，所以

$\frac{\partial \mathbf{Au}}{\partial \mathbf{x}}=\mathbf{A}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$ .

特別地，如果 $\mathbf{u}=\mathbf{x}$ ，則有

$\frac{\partial \mathbf{Ax}}{\partial \mathbf{x}}=\mathbf{A}\frac{\partial \mathbf{x}}{\partial \mathbf{x}}$ ，

再根據性質（2），有

$\frac{\partial \mathbf{x}}{\partial \mathbf{x}}=\mathbf{I}$ ，

所以

$\frac{\partial \mathbf{Ax}}{\partial \mathbf{x}}=\mathbf{AI}=\mathbf{A}$ 。

（4）假設 $\mathbf{B}=\begin{bmatrix} & b_{11}&... &b_{1m}\\ & \vdots& \vdots &\vdots\\ & b_{n1} & ...&b_{nm} & \end{bmatrix}$ 和 $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，且 $\mathbf{B}$ 不是的 $\mathbf{x}$ 的函式，則 $\frac{\partial \mathbf{x}^{T}\mathbf{B}}{\partial \mathbf{x}}=\mathbf{B}^{T}$

證明：分子是行向量還是列向量，對結果是一樣的，所以根據性質（3），有

$\frac{\partial \mathbf{x}^{T}\mathbf{B}}{\partial \mathbf{x}}=\frac{\partial \mathbf{B}^{T}\mathbf{x}}{\partial \mathbf{x}}=\mathbf{B}^{T}$ 。

（5）假設標量 $a=a(\mathbf{x})$ 和向量 $\mathbf{u}=\mathbf{u}(\mathbf{x})$ ，其中 $\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}$ ， $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，則 $\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}}$

證明：先搞清楚，這些符號代表什麼，比如： $a=a(\mathbf{x})$ ，根據我們的符號約定，這是一個標量，而且是 $\mathbf{x}$ 的函式，例如：

$a={x_1}^2+{x_2}^2+...+{x_n}^2$ 就是這樣的一個標量； $\mathbf{u}=\mathbf{u}(\mathbf{x})$ 是一個向量，每個分量都是關於 $\mathbf{x}$ 的函式。所以

$(\frac{\partial a\mathbf{u}}{\partial \mathbf{x}})_{ij}=\frac{\partial au_i}{\partial x_j}=a\frac{\partial u_i}{\partial x_j}+u_i\frac{\partial a}{\partial x_j}$ （1）

$(a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}})_{ij}=(a\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}+(\mathbf{u}\frac{\partial a}{\partial \mathbf{x}})_{ij}=a\frac{\partial u_i}{\partial x_j}+(\begin{bmatrix} u_1 \\ \vdots \\ u_p \end{bmatrix}\begin{bmatrix} \frac{\partial a}{\partial x_1}&... &\frac{\partial a}{\partial x_n} \end{bmatrix})_{ij}\\ =a\frac{\partial u_i}{\partial x_j}+u_i\frac{\partial a}{\partial x_j}$ （2）

上面（1）式和（2）式相等，所以

$\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}}$ .

特別的，如果 $a$ 不是 $\mathbf{x}$ 的函式，則 $\frac{\partial a}{\partial \mathbf{x}}=\mathbf{0}$ ，則有：

$\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$

（6）假設 $\mathbf{u}=\mathbf{u}(\mathbf{x})$ ， $\mathbf{v}=\mathbf{v}(\mathbf{x})$ ，其中 $\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}$ ， $\mathbf{v}=\begin{bmatrix} v_{1}\\ \vdots\\ v_{p} \end{bmatrix}$ ， $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，則 $\frac{\partial \mathbf{(u+v)}}{\partial \mathbf{x}}=\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}}$

證明：

$\mathbf{u+v}=\begin{bmatrix} u_{1}+v_1\\ \vdots\\ u_{p}+v_p \end{bmatrix}$ ，則

$(\frac{\partial \mathbf{(u+v)}}{\partial \mathbf{x}})_{ij}=\frac{\partial \mathbf{(u+v)}_i}{\partial x_j}=\frac{\partial (u_i+v_i)}{\partial x_j}=\frac{\partial u_i}{\partial x_j}+\frac{\partial v_i}{\partial x_j}$ （1）

$(\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}})_{ij}=(\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}+(\frac{\partial \mathbf{v}}{\partial \mathbf{x}})_{ij}=\frac{\partial u_i}{\partial x_j}+\frac{\partial v_i}{\partial x_j}$ （2）

（1）式和（2）式相等，所以

$\frac{\partial \mathbf{(u+v)}}{\partial \mathbf{x}}=\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}}$

注：這條可以看成h(x)=f(x)+g(x)對x求導的擴充套件

（7）假設 $\mathbf{f}=\mathbf{f}(\mathbf{u})$ ， $\mathbf{u}=\mathbf{u}(\mathbf{x})$ ，其中 $\mathbf{f}=\begin{bmatrix} f_{1}\\ \vdots\\ f_{k} \end{bmatrix}$ ， $\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}$ ， $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，則 $\frac{\partial \mathbf{f(u(x))}}{\partial \mathbf{x}}=\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$

證明：

$\mathbf{f}(\mathbf{u(x)})=\begin{bmatrix} f_1\\ \vdots\\ f_k \end{bmatrix}=\begin{bmatrix} f_1(u_1,u_2,...,u_p)\\ \vdots\\ f_k (u_1,u_2,...,u_p)\end{bmatrix}=\begin{bmatrix} f_1(u_1(x_1,x_2,...,x_n),u_2(x_1,x_2,...,x_n),...,u_p(x_1,x_2,...,x_n))\\ \vdots\\ f_k (u_1(x_1,x_2,...,x_n),u_2(x_1,x_2,...,x_n),...,u_p(x_1,x_2,...,x_n))\end{bmatrix}$

$(\frac{\partial \mathbf{f(u(x))}}{\partial \mathbf{x}})_{ij}=\frac{\partial f_i(u_1,u_2,...,u_p)}{\partial x_j}=\frac{\partial f_i}{\partial u_1}\frac{\partial u_1}{\partial x_j}+\frac{\partial f_i}{\partial u_1}\frac{\partial u_2}{\partial x_j}+...+\frac{\partial f_i}{\partial u_p}\frac{\partial u_p}{\partial x_j}$ （1）

$(\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}}\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}=(\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}})_{i,:}(\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{:,j}=\begin{bmatrix} \frac{\partial f_i}{\partial u_1}&... & \frac{\partial f_i}{\partial u_p} \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial x_j}\\ \vdots\\\frac{\partial u_p}{\partial x_j} \end{bmatrix}\\=\frac{\partial f_i}{\partial u_1}\frac{\partial u_1}{\partial x_j}+\frac{\partial f_i}{\partial u_1}\frac{\partial u_2}{\partial x_j}+...+\frac{\partial f_i}{\partial u_p}\frac{\partial u_p}{\partial x_j}$ （2）

（1）式和（2）式相等，所以

$\frac{\partial \mathbf{f(u(x))}}{\partial \mathbf{x}}=\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$

注：這條可以看成是普通複合函式鏈式法則的擴充套件。

4、標量-向量求導

（1）假設 $a$ 是標量， $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，如果 $a$ 不是 $\mathbf{x}$ 的函式，則 $\frac{\partial a}{\partial \mathbf{x}}=\mathbf{0}^T$ （這裡 $\mathbf{0}$ 是 $n\times 1$ 階的零向量）

證明：由向量-向量的性質（1）中的 $\mathbf{a}=\begin{bmatrix} a_{1}\\ \vdots\\ a_{m} \end{bmatrix}$ ，取 $m=1$ ，即得到這個結論。

（2）假設 $u=u(\mathbf{x})$ ， $v=v(\mathbf{x})$ ，其中 $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，則 $\frac{\partial (u+v)}{\partial \mathbf{x}}=\frac{\partial u}{\partial \mathbf{x}}+\frac{\partial v}{\partial \mathbf{x}}$

證明：由向量-向量求導的性質（6），取 $p=1$ ，即得到結論。

（3）假設 $u=u(\mathbf{x})$ 和 $v=v(\mathbf{x})$ 都是標量， $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，則 $\frac{\partial uv}{\partial \mathbf{x}}=u\frac{\partial v}{\partial \mathbf{x}}+v\frac{\partial u}{\partial \mathbf{x}}$

證明：由向量-向量求導的性質（5）, $a=a(\mathbf{x})$ 看成是 $u=u(\mathbf{x})$ ，然後取 $p=1$ ，性質（5）的結論

$\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}}$

變為：

$\frac{\partial uv}{\partial \mathbf{x}}=u\frac{\partial v}{\partial \mathbf{x}}+v\frac{\partial u}{\partial \mathbf{x}}$

特別的，如果 $u$ 不是 $\mathbf{x}$ 的函式，有

$\frac{\partial uv}{\partial \mathbf{x}}=u\frac{\partial v}{\partial \mathbf{x}}$

（4）假設 $\mathbf{u}=\mathbf{u}(\mathbf{x})$ ， $\mathbf{v}=\mathbf{v}(\mathbf{x})$ ，其中 $\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}$ ， $\mathbf{v}=\begin{bmatrix} v_{1}\\ \vdots\\ v_{p} \end{bmatrix}$ ， $\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}$ ，則 $\frac{\partial \mathbf{(u\cdot v)}}{\partial \mathbf{x}}=\mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x}}+\mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$ ，其中 $\mathbf{u\cdot v}$ 表示兩個向量的內積。

證明：

$\mathbf{u\cdot v}=\mathbf{u}^T\mathbf{v}=\sum\limit_{i=1}^{p}u_iv_i$ ，

根據標量-向量求導性質（2）和（3）有

$\frac{\partial \mathbf{(u\cdot v)}}{\partial \mathbf{x}}=\sum\limits_{i=1}^{p}\frac{\partial u_iv_i}{\partial \mathbf{x}}=\sum\limits_{i=1}^{p}(u_i\frac{\partial v_i}{\partial \mathbf{x}}+v_i\frac{\partial u_i}{\partial \mathbf{x}})=\sum\limits_{i=1}^{p}u_i\frac{\partial v_i}{\partial \mathbf{x}}+\sum\limits_{i=1}^{p}v_i\frac{\partial u_i}{\partial \mathbf{x}}\\ =\begin{bmatrix} u_1 &... &u_p \end{bmatrix}\begin{bmatrix} \frac{\partial v_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial v_p}{\partial \mathbf{x}} \end{bmatrix}+\begin{bmatrix} v_1 &... &v_p \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial u_p}{\partial \mathbf{x}} \end{bmatrix}$

注意到 $\begin{bmatrix} \frac{\partial v_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial v_p}{\partial \mathbf{x}} \end{bmatrix}$ 和 $\begin{bmatrix} \frac{\partial u_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial u_p}{\partial \mathbf{x}} \end{bmatrix}$ 是 $p\times n$ 階矩陣，所以

$\begin{bmatrix} u_1 &... &u_p \end{bmatrix}\begin{bmatrix} \frac{\partial v_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial v_p}{\partial \mathbf{x}} \end{bmatrix}+\begin{bmatrix} v_1 &... &v_p \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial u_p}{\partial \mathbf{x}} \end{bmatrix}=\mathbf{u}^T\frac{\partial \mathbf{v </div> <div class=$

機器學習之矩陣微積分及其性質

leboop文章，禁止轉載！

1、矩陣符號約定

2、標量、向量和矩陣求導符號約定

3、向量-向量求導性質

4、標量-向量求導

機器學習之矩陣微積分及其性質

機器學習之數學基礎（一）-微積分，概率論和矩陣

機器學習之微積分與概率論入門1

機器學習之常用矩陣/向量運算

機器學習之數學系列（一）矩陣與矩陣乘法

機器學習之數學基礎——期望、方差、協方差、相關係數、矩、協方差矩陣

機器學習之線性代數基礎一矩陣乘法、秩、特徵值、特徵向量的幾何意義

機器學習之深入理解神經網路理論基礎、BP演算法及其Python實現

機器學習之決策樹（Decision Tree）及其Python程式碼實現

機器學習之分類問題實戰(基於UCI Bank Marketing Dataset)

機器學習之良/惡性乳腺癌腫瘤預測

機器學習之 SVM VC維度、樣本數目與經驗風險最小化的關系

機器學習之SVM初解與淺析（一）:最大距離

機器學習之SVM初解與淺析（一）:

機器學習之PCA主成分分析

機器學習之大數據集

機器學習之梯度下降法

機器學習之numpy庫中常用的函數介紹（一）

機器學習之學習路線

機器學習之決策樹與隨機森林模型

機器學習之矩陣微積分及其性質

leboop文章，禁止轉載！

1、矩陣符號約定

2、標量、向量和矩陣求導符號約定

3、向量-向量求導性質

4、標量-向量求導

相關推薦