1. 程式人生 > >機器學習之矩陣微積分及其性質

機器學習之矩陣微積分及其性質

leboop文章,禁止轉載!

1、矩陣符號約定

(1)標量:使用普通小寫字母表示,例如a,x,y

(2)列向量:使用加粗的小寫字母來表示,比如\mathbf{a,x,y}等;

(3)行向量:使用列向量的轉置表示,例如\mathbf{a}^{T}

(4)矩陣:使用加粗的大寫字母表示,比如\mathbf{A},\mathbf{B},\mathbf{X},\mathbf{Y}等;

                    使用(\mathbf{A})_{ij}表示矩陣\mathbf{A}的第i行和第j列元素,也就是a_{ij},即(\mathbf{A})_{ij}=a_{ij}

                    使用(\mathbf{A})_{i,:}表示矩陣\mathbf{A}的第i行;

                    使用(\mathbf{A})_{:,j}表示矩陣\mathbf{A}的第j列;

(5)矩陣的:是指矩陣對角線上的元素之和,使用tr()來表示,例如tr(\mathbf{A})表示矩陣\mathbf{A}的對角線元素之和,當然只有行數和列數相同的的矩陣才有跡的概念;

(6)矩陣的行列式:使用|\mathbf{A}|來表示矩陣\mathbf{A}的行列式,當然也只有行數和列數相同的矩陣才有行列式的概念;

 

注:

標量、行向量和列向量都可以看成是矩陣的特殊情況,例如:

(1)對於一個標量x,可以看成是1\times 1階的矩陣;

(2)對於n列的行向量\mathbf{a}^{T}=\begin{bmatrix} a_1 &... & a_n \end{bmatrix},可以看成是1\times n階的矩陣;

(3)對於m行的列向量

\mathbf{x}=\begin{bmatrix} x_1\\ \vdots\\ x_m \end{bmatrix},可以看成是m\times 1階的矩陣。

同時標量又可以看成是行向量或列向量的特殊情況。

 

2、標量、向量和矩陣求導符號約定

矩陣求導中,自變數和因變數可以是標量、向量和矩陣中的一種,所以總共有3\times 3=9種可能性。如表格所示:

型別 標量(y 向量(\mathbf{y} 矩陣(\mathbf{Y}
標量(x \frac{\mathrm{dy} }{\mathrm{d} x} \frac{\partial \mathbf{y}}{\partial x} \frac{\partial \mathbf{Y}}{\partial x}
向量(\mathbf{x} \frac{\partial y}{\partial \mathbf{x}} \frac{\partial \mathbf{y}}{\partial \mathbf{x}}  
矩陣(\mathbf{X} \frac{\partial y}{\partial \mathbf{X}}    

其中當自變數和因變數都是標量時,就是我們最熟知的求導\frac{\mathrm{dy} }{\mathrm{d} x}

,其中y=y(x)x的函式,這裡我們對這種情況不再討論。表中我們還寫出了其他5種求導情況,下面我們逐步討論這5種求導情況。

 

假設xy是兩個標量,

\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}\mathbf{y}=\begin{bmatrix} y_{1}\\ \vdots\\ y_{m} \end{bmatrix}是兩個向量,

\mathbf{X}=\begin{bmatrix} & x_{11}&... &x_{1q}\\ & \vdots& \vdots &\vdots\\ & x_{p1} & ...&x_{pq} & \end{bmatrix}\mathbf{Y}=\begin{bmatrix} & y_{11}&... &y_{1n}\\ & \vdots& \vdots &\vdots\\ & y_{m1} & ...&y_{mn} & \end{bmatrix}是兩個矩陣,矩陣有時使用向量表述更方便,例如:

\mathbf{X}=\begin{bmatrix} \mathbf{x_1} &... &\mathbf{x_q} \end{bmatrix}\mathbf{Y}=\begin{bmatrix} \mathbf{y_1} &... &\mathbf{y_n} \end{bmatrix},其中

\mathbf{x}_j=\begin{bmatrix} x_{1j}\\ \vdots\\ x_{pj} \end{bmatrix}\; \; (1<=j<=q)表示矩陣\mathbf{X}的第j列,\mathbf{y}_k=\begin{bmatrix} y_{1k}\\ \vdots\\ y_{mk} \end{bmatrix}\; \; (1<=k<=n)表示矩陣\mathbf{Y}的第k列,

求導型別 \ 佈局方式 分子佈局 分母佈局
標量-向量 \frac{\partial y}{\partial \mathbf{x}} = \left[ \frac{\partial y}{\partial x_1} \frac{\partial y}{\partial x_2} \cdots \frac{\partial y}{\partial x_n} \right]. \frac{\partial y}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y}{\partial x_1}\\ \frac{\partial y}{\partial x_2}\\ \vdots\\ \frac{\partial y}{\partial x_n}\\ \end{bmatrix}.
向量-標量 \frac{\partial \mathbf{y}}{\partial x} = \begin{bmatrix} \frac{\partial y_1}{\partial x}\\ \frac{\partial y_2}{\partial x}\\ \vdots\\ \frac{\partial y_m}{\partial x}\\ \end{bmatrix}. \frac{\partial \mathbf{y}}{\partial x} = \left[ \frac{\partial y_1}{\partial x} \frac{\partial y_2}{\partial x} \cdots \frac{\partial y_m}{\partial x} \right].
向量-向量 \frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n}\\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n}\\ \end{bmatrix}. \frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_2}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_1}\\ \frac{\partial y_1}{\partial x_2} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_2}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_1}{\partial x_n} & \frac{\partial y_2}{\partial x_n} & \cdots & \frac{\partial y_m}{\partial x_n}\\ \end{bmatrix}.
標量-矩陣 \frac{\partial y}{\partial \mathbf{X}} = \begin{bmatrix} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{21}} & \cdots & \frac{\partial y}{\partial x_{p1}}\\ \frac{\partial y}{\partial x_{12}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{p2}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y}{\partial x_{1q}} & \frac{\partial y}{\partial x_{2q}} & \cdots & \frac{\partial y}{\partial x_{pq}}\\ \end{bmatrix}. \frac{\partial y}{\partial \mathbf{X}} = \begin{bmatrix} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}} & \cdots & \frac{\partial y}{\partial x_{1q}}\\ \frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{2q}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y}{\partial x_{p1}} & \frac{\partial y}{\partial x_{p2}} & \cdots & \frac{\partial y}{\partial x_{pq}}\\ \end{bmatrix}.
矩陣-標量 \frac{\partial \mathbf{Y}}{\partial x} = \begin{bmatrix} \frac{\partial y_{11}}{\partial x} & \frac{\partial y_{12}}{\partial x} & \cdots & \frac{\partial y_{1n}}{\partial x}\\ \frac{\partial y_{21}}{\partial x} & \frac{\partial y_{22}}{\partial x} & \cdots & \frac{\partial y_{2n}}{\partial x}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_{m1}}{\partial x} & \frac{\partial y_{m2}}{\partial x} & \cdots & \frac{\partial y_{mn}}{\partial x}\\ \end{bmatrix}.                                  無約定

表中分子佈局和分母佈局只是兩種不同的約定方式,並無多大區別。在做一些證明推導時需要約定其中的一種方式,有時也會同時約定兩種方式,比如標量-向量約定分子佈局方式,向量-標量可以約定分母佈局方式,但對於同一種類型求導只能約定一種方式。為了不產生混淆,我建議在同一個環境下約定一種方式,本文我們約定分子佈局方式。

佈局方式記憶方法:

(1)分子佈局:分子不動,分母轉置後依次求導

(2)分母佈局:分母不動,分子轉置後依次求導

注意到,對於同一種類型的求導,分子佈局和分母佈局存在轉置關係。

對於分子佈局方式:

(1)向量-標量標量-向量求導約定都可以看成是向量-向量求導約定的特例,即

\frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\begin{bmatrix} \frac{\partial y_1}{\partial \mathbf{x}}\\\vdots \\\frac{\partial y_m}{\partial \mathbf{x}} \end{bmatrix}=\begin{bmatrix} \frac{\partial \mathbf{y}}{\partial x_1} &... &\frac{\partial \mathbf{y}}{\partial x_n} \end{bmatrix}

(2)向量-標量求導約定可以看成是矩陣-標量求導約定的特例,即

\frac{\partial \mathbf{Y}}{\partial x}=\begin{bmatrix} \frac{\partial \mathbf{y_1}}{\partial x}&... &\frac{\partial \mathbf{y_n}}{\partial x} \end{bmatrix}

(3)標量-向量求導約定可以看成是標量-矩陣求導約定的特例,即

\frac{\partial y}{\partial \mathbf{X}}=\begin{bmatrix} \frac{\partial y}{\partial \mathbf{x_1}}\\\vdots \\\frac{\partial y}{\partial \mathbf{x_q}} \end{bmatrix}

 

特例的情況給了我們一些思路,向量-標量標量-向量求導的性質是不是可以看成是向量-向量求導或者標量-矩陣求導的特例呢?我們接下來就回答這個問題。

 

特別提醒:以下證明均約定是分子佈局

3、向量-向量求導性質

原文地址

(1)假設\mathbf{a}=\begin{bmatrix} a_{1}\\ \vdots\\ a_{m} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},如果\mathbf{a}不是\mathbf{x}的函式,則\frac{\partial \mathbf{a}}{\partial \mathbf{x}}=\mathbf{0}_{m\times n},其中\mathbf{0}_{m\times n}表示m\times n階零矩陣(每個元素都是0)

證明:

\frac{\partial \mathbf{a}}{\partial \mathbf{x}}={\begin{bmatrix} & \frac{\partial a_1}{\partial x_{1}}&... &\frac{\partial a_1}{\partial x_{n}}\\ & \vdots& \vdots &\vdots\\ & \frac{\partial a_m}{\partial x_1} & ...&\frac{\partial a_m}{\partial x_n} & \end{bmatrix}}=\mathbf{0}_{m\times n}

(如果\mathbf{a}不是\mathbf{x}的函式,對這兩個向量中的每個分量a_ix_j,都有\frac{\partial a_i}{\partial x_j}=0(1<=i<=m,1<=j<=n)

事實上,對於分母佈局,\frac{\partial \mathbf{a}}{\partial \mathbf{x}}=\mathbf{0}_{n\times m}

 

注:這可以看成常數求導的擴充套件。

原文中認為分子佈局和分母佈局得到的是同一個結果,從我們的證明結果來看,並不是同一個結果,而是存在轉置關係。

 

(2)假設\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},則\frac{\partial \mathbf{x}}{\partial \mathbf{x}}=\mathbf{I}_{n\times n},其中\mathbf{I}_{n\times n}表示n\times n階單位矩陣(對角線元素為1,其餘元素為0)

證明:

\frac{\partial \mathbf{x}}{\partial \mathbf{x}}={\begin{bmatrix} & \frac{\partial x_1}{\partial x_{1}}&... &\frac{\partial x_1}{\partial x_{n}}\\ & \vdots& \vdots &\vdots\\ & \frac{\partial x_n}{\partial x_1} & ...&\frac{\partial x_n}{\partial x_n} & \end{bmatrix}}=\mathbf{I}_{n\times n}

事實上,對於分母佈局,這個結論也是成立的。

 

注:這條可以看成y=x對x求導的擴充套件

 

(3)假設\mathbf{A}=\begin{bmatrix} & a_{11}&... &a_{1p}\\ & \vdots& \vdots &\vdots\\ & a_{m1} & ...&a_{mp} & \end{bmatrix}\mathbf{u}=\mathbf{u}(\mathbf{x}),其中\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},且\mathbf{A}不是\mathbf{x}的函式,則\frac{\partial \mathbf{Au}}{\partial \mathbf{x}}=\mathbf{A}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

 

證明:假設

\mathbf{Au}=\begin{bmatrix} b_1\\ \vdots\\ b_m \end{bmatrix}

其中b_i=\sum\limit_{k=1}^{p}a_{ik}u_k\; (1=<i<=m)

(\frac{\partial \mathbf{Au}}{\partial \mathbf{x}})_{ij}=\frac{\partial b_i}{\partial x_j}=\sum\limits_{k=1}^{p}a_{ik}\frac{\partial u_k}{\partial x_j}        (1)

(\mathbf{A}\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}=\mathbf{A}_{i,:}(\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{:,j}=\begin{bmatrix} a_{i1} &... &a_{ip} \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial x_j}\\ \vdots\\ \frac{\partial u_p}{\partial x_j} \end{bmatrix}=\sum\limits_{k=1}^{p}a_{ik}\frac{\partial u_k}{\partial x_j}         (2)

(1)式和(2)式相等,所以

\frac{\partial \mathbf{Au}}{\partial \mathbf{x}}=\mathbf{A}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}.

特別地,如果\mathbf{u}=\mathbf{x},則有

\frac{\partial \mathbf{Ax}}{\partial \mathbf{x}}=\mathbf{A}\frac{\partial \mathbf{x}}{\partial \mathbf{x}}

再根據性質(2),有

\frac{\partial \mathbf{x}}{\partial \mathbf{x}}=\mathbf{I}

所以

\frac{\partial \mathbf{Ax}}{\partial \mathbf{x}}=\mathbf{AI}=\mathbf{A}

 

(4)假設\mathbf{B}=\begin{bmatrix} & b_{11}&... &b_{1m}\\ & \vdots& \vdots &\vdots\\ & b_{n1} & ...&b_{nm} & \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},且\mathbf{B}不是的\mathbf{x}的函式,則\frac{\partial \mathbf{x}^{T}\mathbf{B}}{\partial \mathbf{x}}=\mathbf{B}^{T}

證明:分子是行向量還是列向量,對結果是一樣的,所以根據性質(3),有

\frac{\partial \mathbf{x}^{T}\mathbf{B}}{\partial \mathbf{x}}=\frac{\partial \mathbf{B}^{T}\mathbf{x}}{\partial \mathbf{x}}=\mathbf{B}^{T}

 

(5)假設標量a=a(\mathbf{x})和向量\mathbf{u}=\mathbf{u}(\mathbf{x}),其中\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},則\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}}

證明:先搞清楚,這些符號代表什麼,比如:a=a(\mathbf{x}),根據我們的符號約定,這是一個標量,而且是\mathbf{x}的函式,例如:

a={x_1}^2+{x_2}^2+...+{x_n}^2就是這樣的一個標量;\mathbf{u}=\mathbf{u}(\mathbf{x})是一個向量,每個分量都是關於\mathbf{x}的函式。所以

(\frac{\partial a\mathbf{u}}{\partial \mathbf{x}})_{ij}=\frac{\partial au_i}{\partial x_j}=a\frac{\partial u_i}{\partial x_j}+u_i\frac{\partial a}{\partial x_j}                          (1)

(a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}})_{ij}=(a\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}+(\mathbf{u}\frac{\partial a}{\partial \mathbf{x}})_{ij}=a\frac{\partial u_i}{\partial x_j}+(\begin{bmatrix} u_1 \\ \vdots \\ u_p \end{bmatrix}\begin{bmatrix} \frac{\partial a}{\partial x_1}&... &\frac{\partial a}{\partial x_n} \end{bmatrix})_{ij}\\ =a\frac{\partial u_i}{\partial x_j}+u_i\frac{\partial a}{\partial x_j}                       (2)

上面(1)式和(2)式相等,所以

\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}}.

特別的,如果a不是\mathbf{x}的函式,則\frac{\partial a}{\partial \mathbf{x}}=\mathbf{0},則有:

\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

 

(6)假設\mathbf{u}=\mathbf{u}(\mathbf{x})\mathbf{v}=\mathbf{v}(\mathbf{x}),其中\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{v}=\begin{bmatrix} v_{1}\\ \vdots\\ v_{p} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},則\frac{\partial \mathbf{(u+v)}}{\partial \mathbf{x}}=\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}}

 

證明:

\mathbf{u+v}=\begin{bmatrix} u_{1}+v_1\\ \vdots\\ u_{p}+v_p \end{bmatrix},則

(\frac{\partial \mathbf{(u+v)}}{\partial \mathbf{x}})_{ij}=\frac{\partial \mathbf{(u+v)}_i}{\partial x_j}=\frac{\partial (u_i+v_i)}{\partial x_j}=\frac{\partial u_i}{\partial x_j}+\frac{\partial v_i}{\partial x_j}       (1)

 

(\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}})_{ij}=(\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}+(\frac{\partial \mathbf{v}}{\partial \mathbf{x}})_{ij}=\frac{\partial u_i}{\partial x_j}+\frac{\partial v_i}{\partial x_j}         (2)

(1)式和(2)式相等,所以

\frac{\partial \mathbf{(u+v)}}{\partial \mathbf{x}}=\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}}

注:這條可以看成h(x)=f(x)+g(x)對x求導的擴充套件

 

(7)假設\mathbf{f}=\mathbf{f}(\mathbf{u})\mathbf{u}=\mathbf{u}(\mathbf{x}),其中\mathbf{f}=\begin{bmatrix} f_{1}\\ \vdots\\ f_{k} \end{bmatrix}\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},則\frac{\partial \mathbf{f(u(x))}}{\partial \mathbf{x}}=\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

證明:

\mathbf{f}(\mathbf{u(x)})=\begin{bmatrix} f_1\\ \vdots\\ f_k \end{bmatrix}=\begin{bmatrix} f_1(u_1,u_2,...,u_p)\\ \vdots\\ f_k (u_1,u_2,...,u_p)\end{bmatrix}=\begin{bmatrix} f_1(u_1(x_1,x_2,...,x_n),u_2(x_1,x_2,...,x_n),...,u_p(x_1,x_2,...,x_n))\\ \vdots\\ f_k (u_1(x_1,x_2,...,x_n),u_2(x_1,x_2,...,x_n),...,u_p(x_1,x_2,...,x_n))\end{bmatrix}

(\frac{\partial \mathbf{f(u(x))}}{\partial \mathbf{x}})_{ij}=\frac{\partial f_i(u_1,u_2,...,u_p)}{\partial x_j}=\frac{\partial f_i}{\partial u_1}\frac{\partial u_1}{\partial x_j}+\frac{\partial f_i}{\partial u_1}\frac{\partial u_2}{\partial x_j}+...+\frac{\partial f_i}{\partial u_p}\frac{\partial u_p}{\partial x_j}                            (1)

(\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}}\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}=(\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}})_{i,:}(\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{:,j}=\begin{bmatrix} \frac{\partial f_i}{\partial u_1}&... & \frac{\partial f_i}{\partial u_p} \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial x_j}\\ \vdots\\\frac{\partial u_p}{\partial x_j} \end{bmatrix}\\=\frac{\partial f_i}{\partial u_1}\frac{\partial u_1}{\partial x_j}+\frac{\partial f_i}{\partial u_1}\frac{\partial u_2}{\partial x_j}+...+\frac{\partial f_i}{\partial u_p}\frac{\partial u_p}{\partial x_j}                                                   (2)

(1)式和(2)式相等,所以

\frac{\partial \mathbf{f(u(x))}}{\partial \mathbf{x}}=\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

 

注:這條可以看成是普通複合函式鏈式法則的擴充套件。

 

4、標量-向量求導

(1)假設a是標量,\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},如果a不是\mathbf{x}的函式,則\frac{\partial a}{\partial \mathbf{x}}=\mathbf{0}^T(這裡\mathbf{0}n\times 1階的零向量)

證明:由向量-向量的性質(1)中的\mathbf{a}=\begin{bmatrix} a_{1}\\ \vdots\\ a_{m} \end{bmatrix},取m=1,即得到這個結論。

 

(2)假設u=u(\mathbf{x})v=v(\mathbf{x}),其中\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},則\frac{\partial (u+v)}{\partial \mathbf{x}}=\frac{\partial u}{\partial \mathbf{x}}+\frac{\partial v}{\partial \mathbf{x}}

證明:由向量-向量求導的性質(6),取p=1,即得到結論。

 

(3)假設u=u(\mathbf{x})v=v(\mathbf{x})都是標量,\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},則\frac{\partial uv}{\partial \mathbf{x}}=u\frac{\partial v}{\partial \mathbf{x}}+v\frac{\partial u}{\partial \mathbf{x}}

證明:由向量-向量求導的性質(5),a=a(\mathbf{x})看成是u=u(\mathbf{x}),然後取p=1,性質(5)的結論

\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}}

變為:

\frac{\partial uv}{\partial \mathbf{x}}=u\frac{\partial v}{\partial \mathbf{x}}+v\frac{\partial u}{\partial \mathbf{x}}

特別的,如果u不是\mathbf{x}的函式,有

\frac{\partial uv}{\partial \mathbf{x}}=u\frac{\partial v}{\partial \mathbf{x}}

 

(4)假設\mathbf{u}=\mathbf{u}(\mathbf{x})\mathbf{v}=\mathbf{v}(\mathbf{x}),其中\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{v}=\begin{bmatrix} v_{1}\\ \vdots\\ v_{p} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},則\frac{\partial \mathbf{(u\cdot v)}}{\partial \mathbf{x}}=\mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x}}+\mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x}},其中\mathbf{u\cdot v}表示兩個向量的內積。

證明:

\mathbf{u\cdot v}=\mathbf{u}^T\mathbf{v}=\sum\limit_{i=1}^{p}u_iv_i

根據標量-向量求導性質(2)和(3)有

\frac{\partial \mathbf{(u\cdot v)}}{\partial \mathbf{x}}=\sum\limits_{i=1}^{p}\frac{\partial u_iv_i}{\partial \mathbf{x}}=\sum\limits_{i=1}^{p}(u_i\frac{\partial v_i}{\partial \mathbf{x}}+v_i\frac{\partial u_i}{\partial \mathbf{x}})=\sum\limits_{i=1}^{p}u_i\frac{\partial v_i}{\partial \mathbf{x}}+\sum\limits_{i=1}^{p}v_i\frac{\partial u_i}{\partial \mathbf{x}}\\ =\begin{bmatrix} u_1 &... &u_p \end{bmatrix}\begin{bmatrix} \frac{\partial v_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial v_p}{\partial \mathbf{x}} \end{bmatrix}+\begin{bmatrix} v_1 &... &v_p \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial u_p}{\partial \mathbf{x}} \end{bmatrix}

注意到\begin{bmatrix} \frac{\partial v_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial v_p}{\partial \mathbf{x}} \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial u_p}{\partial \mathbf{x}} \end{bmatrix}p\times n階矩陣,所以

\begin{bmatrix} u_1 &... &u_p \end{bmatrix}\begin{bmatrix} \frac{\partial v_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial v_p}{\partial \mathbf{x}} \end{bmatrix}+\begin{bmatrix} v_1 &... &v_p \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial u_p}{\partial \mathbf{x}} \end{bmatrix}=\mathbf{u}^T\frac{\partial \mathbf{v   
 
 </div> 
 <div class=

相關推薦

機器學習矩陣微積分及其性質

leboop文章,禁止轉載! 1、矩陣符號約定 (1)標量:使用普通小寫字母表示,例如; (2)列向量:使用加粗的小寫字母來表示,比如等; (3)行向量:使用列向量的轉置表示,例如; (4)矩陣:使用加粗的大寫字母表示,比如等;      

機器學習數學基礎(一)-微積分,概率論和矩陣

系列 學習 python 機器學習 自然語言處理 圖片 clas 數學基礎 記錄 學習python快一年了,因為之前學習python全棧時,沒有記錄學習筆記想回顧發現沒有好的記錄,目前主攻python自然語言處理方面,把每天的學習記錄記錄下來,以供以後查看,和交流分享。~~

機器學習微積分與概率論入門1

公式 連續 === 等於 產品 c2c ges cto mar 這兩門學科作為機器學習的必備科目! 一、微積分1夾逼定理通俗的講:A≤B≤C當求極限時,存在A=C,則說明B也等於A和C案例1: 案例2: 2 兩個重要極限 3 導數通俗的講就是曲線的斜率二階導數是斜率變化快慢

機器學習常用矩陣/向量運算

1. Matrix product (矩陣乘法) 定義: 給定 m × p

機器學習數學系列(一)矩陣矩陣乘法

1.對於矩陣的認識應當把它看成是多個向量的排列表或把矩陣看成行向量,該行向量中的每個元素都是一個列向量,即矩陣是複合行向量。如下圖所示。 2.對於下面這個矩陣的乘法有兩種看法: (1)矩陣將向量[b1,b2,b3].T進行了運動變換,這種變換可以是同空間內變換,也可以是不同空間間的變換;

機器學習數學基礎——期望、方差、協方差、相關係數、矩、協方差矩陣

期望 定義 離散型 E(X)=∑i∞xkpk 連續型 E(X)=∫∞−∞xf(x)dx 性質 E[aX+bY]=aE[X]+bE[Y] 方差 定義 D(X)=Var(X)=E{[X−E(X)]2}=E

機器學習線性代數基礎一 矩陣乘法、秩、特徵值、特徵向量的幾何意義

  寫篇文章把自己對矩陣的理解記錄一下,有不對的地方歡迎指正。為簡單、直觀、視覺化起見,我們只以簡單的二維和三維空間為例。高維空間也是同樣的道理,只是不能視覺化,只能通過數學公式來證明。 1. 矩陣乘法   矩陣乘法來源於線性方程組的求解,為了方便起見,

機器學習深入理解神經網路理論基礎、BP演算法及其Python實現

  人工神經網路(Artificial Neural Networks,ANN)系統是 20 世紀 40 年代後出現的。它是由眾多的神經元可調的連線權值連線而成,具有大規模並行處理、分散式信 息儲存、良

機器學習決策樹(Decision Tree)及其Python程式碼實現

  決策樹是一個預測模型;他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物

機器學習分類問題實戰(基於UCI Bank Marketing Dataset)

表示 般的 機構 文件 cnblogs opened csv文件 mas htm 導讀: 分類問題是機器學習應用中的常見問題,而二分類問題是其中的典型,例如垃圾郵件的識別。本文基於UCI機器學習數據庫中的銀行營銷數據集,從對數據集進行探索,數據預處理和特征工程,到學習

機器學習良/惡性乳腺癌腫瘤預測

nan n) gin sample 通過 回歸 ipy read 數據集 知識點:   邏輯斯蒂回歸分類器   訓練數據集:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-w

機器學習 SVM VC維度、樣本數目與經驗風險最小化的關系

能力 pan dsm 過擬合 引入 div 不但 機器 con VC維在有限的訓練樣本情況下,當樣本數 n 固定時。此時學習機器的 VC 維越高學習機器的復雜性越高。VC 維反映了函數集的學習能力,VC 維越大則學習機器越復雜(容量越大)。

機器學習SVM初解與淺析(一):最大距離

機器學習 svm 最大距離 2 / ||w|| 這段時間在看周誌華大佬的《機器學習》,在看書的過程中,有時候會搜搜其他人寫的文章,對比來講,周教授講的內容還是比較深刻的,但是前幾天看到SVM這一章的時候,感覺甚是晦澀啊,第一感覺就是比較抽象,特別是對於像本人這種I

機器學習SVM初解與淺析(一):

機器學習 svm 最大距離 2 / ||w||sdsshngshan‘gccha 這段時間在看周誌華大佬的《機器學習》,在看書的過程中,有時候會搜搜其他人寫的文章,對比來講,周教授講的內容還是比較深刻的,但是前幾天看到SVM這一章的時候,感覺甚是晦澀啊,第一感覺就

機器學習PCA主成分分析

ping app 最大 們的 理解 style 避免 -m size 前言 以下內容是個人學習之後的感悟,轉載請註明出處~ 簡介   在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的 信息較

機器學習大數據集

曲線 叠代 ... 問題 alt 流數據 疊加 沒有 cost 前言 以下內容是個人學習之後的感悟,轉載請註明出處~ 簡介   大數據時代已經來臨,它將在眾多領域掀起變革的巨浪。機器學習對於大數據集的處理也變得越來越重要。大數據 集務必會帶來恐

機器學習梯度下降法

梯度 學習 模型 最快 參數 nbsp 函數 bsp 每一個 在吳恩達的機器學習課程中,講了一個模型,如何求得一個參數令錯誤函數值的最小,這裏運用梯度下降法來求得參數。 首先任意選取一個θ 令這個θ變化,怎麽變化呢,怎麽讓函數值變化的快,變化的小怎麽變化,那麽函數值怎麽才能

機器學習numpy庫中常用的函數介紹(一)

做的 string idt 維度 數據 round float 數值 array 1. mat() mat()與array的區別: mat是矩陣,數據必須是2維的,是array的子集,包含array的所有特性,所做的運算都是針對矩陣來進行的。 array是數組,數據可以是多

機器學習學習路線

機器學習機器學習機器學習樸素貝葉斯(NBC) 決策樹K-近鄰算法回歸K-均值聚類算法Apriori算法FP-growth算法主成分分析(PCA)奇異值分析(SVD)支持向量機logistic回歸python 實現明星專家系統http://9399369.blog.51cto.com/9389369/d-22/

機器學習決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我 機器 歡迎大家前往騰訊雲技術社區,獲取更多騰訊海量技術實踐幹貨哦~ 作者:汪毅雄 導語 本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義,相信能幫助初學者真正地理解相關知識