1. 程式人生 > >【機器學習筆記02】最小二乘法(多元線性迴歸模型)

【機器學習筆記02】最小二乘法(多元線性迴歸模型)

數學基礎

1.轉置矩陣

定義: 將矩陣A同序數的行換成列成為轉置矩陣ATA^T,舉例: A=(120311)A=\begin{pmatrix} 1 & 2 & 0 \\ 3 & -1 & 1 \end{pmatrix} 其轉置矩陣為AT=(132101)A^T=\begin{pmatrix} 1 & 3 \\ 2 & -1\\ 0 & 1 \end{pmatrix}

轉置矩陣具有如下性質: (1)(AT)T=A(A^T)^T=A

(2)(A+B)T=AT+BT(A+B)^T=A^T+B^T (3)(λA)T=λAT(\lambda A)^T = \lambda A^T (4)(AB)T=BTAT(AB)^T = B^TA^T

2.矩陣的導數

基本定義: 如果矩陣A(t)=(aij(t))m×nA(t)=(a_{ij}(t))_m \times _n 每一個元素分量aij(t)a_{ij}(t)是t的可微函式,則矩陣A的導數為: A(t)=ddtA(t)=(ddtaij(t))m×nA^\prime(t)=\dfrac{d}{dt}A(t)=(\dfrac{d}{dt}a_{ij}(t))_m \times _n

,也就是每個元素單獨求導數。

當存在A、B兩個可導矩陣,存在如下一些定理:

(1)ddt(A(T)+B(T))=ddtA(T)+ddtB(T)\dfrac{d}{dt}(A(T)+B(T))=\dfrac{d}{dt}A(T)+\dfrac{d}{dt}B(T) (2)ddt(A(T)B(T))=ddtA(T)B(T)+A(T)ddtB(T)\dfrac{d}{dt}(A(T)B(T))=\dfrac{d}{dt}A(T) \cdot B(T) + A(T)\cdot\dfrac{d}{dt} B(T)

需要注意的是在本例中,求導屬於矩陣對向量的求導(重要,定義如下:

A=[a11a12a1na21a22a2n............am1am2amn]A=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ ... & ... & ... & ... \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix}x=[x1,x2,...xn]Tx=[x_1, x_2, ... x_n]^T

我們有A.x=[a11x1a12x2a1nxna21x1a22x2a2nxn............am1x1am2x2amnxn]A.x = \begin{bmatrix} a_{11}x_1 & a_{12}x_2 & \cdots & a_{1n}x_n \\ a_{21}x_1 & a_{22}x_2 & \cdots & a_{2n}x_n \\ ... & ... & ... & ... \\ a_{m1}x_1 & a_{m2}x_2 & \cdots & a_{mn}x_n \end{bmatrix} 此時Ax對向量x,相當於每一行的第i列分別對xix_i求導,因此: Axx=[a11a21a1ma12a22a2m............a1na2nanm]=AT\dfrac{\partial Ax}{\partial x}=\begin{bmatrix} a_{11} & a_{21} & \cdots & a_{1m} \\ a_{12} & a_{22} & \cdots & a_{2m} \\ ... & ... & ... & ... \\ a_{1n} & a_{2n} & \cdots & a_{nm} \end{bmatrix} = A^T