1. 程式人生 > 其它 >《深度學習》筆記第二章 線性代數

《深度學習》筆記第二章 線性代數

第二章 線性代數

標量、向量、矩陣和張量

  • 標量:一個單獨的數字就是標量,通常斜體表示標量。
  • 向量:一列數,這些數是有序排列的。一般用粗體的小寫\(\mathbf{x}\)。如果每個元素都屬於R,並且該向量有n個元素,那麼該向量屬於實數集R的n次笛卡爾乘積構成的集合,記為\(R^n\),索引這些元素時如果是一個集合\(s=\{1,2,3\}\),我們可以寫成\(x_s\)
  • 矩陣:矩陣是一個二維陣列,其中的每一個元素由二個索引,一般又粗體的大寫變數名稱。如果一個實數矩陣高度為m、寬度為n,那麼我們就說\(A \in \mathbb{R}^{m \times n}\)
  • 張量:超過兩維的陣列,一般的,一個數組中的元素分佈在若干維座標的規則網路中,我們稱為張量。一般用加粗A
    表示。
    轉置:矩陣以對角線為軸的映象,這條從左上角到右下角的對角線被稱為主對角線。如\(A^{\top}{i,j} = A_{i,j}\)

廣播:在深度學習中,我們允許矩陣和向量相加,比如\(\mathbf{C}=\mathbf{A} + b\),這裡\(C_{i,j} = A_{i,j} + b_j\)

矩陣和向量相乘

矩陣乘法\(\mathbf{C}=\mathbf{A}\mathbf{B}\),具體的操作定義為\(C_{i,j}=\sum_{k}A_{i,k}B_{k,j}\)

Hadamard乘積(元素對應乘積):\(\mathbf{A} \odot \mathbf{B}\)

矩陣乘法支援分配律、結合律但是不支援交換律,然而向量支援交換律:\(x^{\top}y = y^{\top}x\)

單位矩陣和逆矩陣

單位矩陣:所有主對角線的元素都是1,而其他位置的元素都是0,記為\(\mathbf{I}\)

逆矩陣:矩陣\(\mathbf{A}\)矩陣逆記作\(\mathbf{A}^{-1}\),關係\(\mathbf{A}^{-1}\mathbf{A}=\mathbf{I}\)

線性相關和生成子空間

可以把矩陣的乘法\(\mathbf{A}\mathbf{x}=b\)可以理解為A的列向量是從原點出發的不同方向,確定有多少種方法達到向量b,x的每個元素看成我們沿著列向量走多遠。這種操作稱為線性組合。一組向量的線性組合是指每個向量乘以對應標量係數之後的和。確定是否有解就相當於是否在A列向量的生成子空間中,這種子空間稱為A的列空間。如果\(b \in \mathbb{R}^m\)

,所以如果成立,至少n大於等於m,比如一個3*2的矩陣,x是2維的,那麼列空間有一維是怎麼都不知道走多遠的,那肯定到達不了b。但是這裡還有一個條件,就是矩陣內的列向量是線性無關的,不然,也不行。

線性無關:如果一組向量中任意一個向量都不能表示其他向量的線性組合,那就這組就是線性無關,否則線性相關。

所以Ax=b的充分必要條件是,如果\(b \in \mathbb{R}^m\)A矩陣至少有m個線性無關的向量。

A矩陣要有逆,必須是一個線性無關的方陣。如果相關了,那麼就是奇異的

範數

範數衡量向量的大小,形式上,\(L^p\)範數定義如下:

\(||x||_p = (\sum_i|x_i|)^{1 \over p}\)

p=2為歐基裡德範數,簡寫為||x||

p=1為絕對值求和。常作為非零元素數目的替代函式。

Frobenius範數:計算矩陣大小,\(||A||F = \sqrt{\sum_{i,j}A^2_{i,j}} =\sqrt{Tr(AA^\top)}\)(跡的計算方式)

向量的點積可以用範數表示:\(x^\top y = ||x||_2 ||y||_2 cos \theta\)

特殊型別的矩陣和向量

對角矩陣:只在主對角線上含有非零元素,其他位置都是零。用diag(v)表示。

對稱矩陣:矩陣轉置等於自己。

單位向量:具有單位範數的向量:\(||x||_2=1\)

正交:\(x^{\top}y=0\).如果還範數為1,就是標準正交。

正交矩陣:行向量和列向量分別標準正交\(A^\top A= AA^\top=I\),這裡還可以推出\(A^\top = A^{-1}\)

矩陣分解

特徵向量:與A相乘後相當於對該向量進行縮放的非零向量v,\(Av=\lambda v\),其中\(\lambda\)為對應特徵值。(類似有左特徵值:\(v^\top A= \lambda v ^\top\)

特徵分解:\(A=V\\diag(\lambda)V^{\top}\),V是n個特徵向量組成的矩陣,每一列是一個特徵向量。

如果所有特徵值都是正數的矩陣,稱為正定矩陣(保證\(x^\top A x = 0 \rightarrow x=0\)),如果是非負數,則為半正定矩陣(\(x^\top A x \geq 0\)),同理有負定和半負定。

奇異值分解

分解為奇異向量和奇異值:

\(A=UDV^{\top}\)

U(左奇異值)可以看做是\(AA^\top\)的特徵向量,V(右奇異值)可以看做是\(AA^\top\)特徵向量。非零奇異值是兩個奇異值。

Moore-Penrose偽逆

Moore-penrose偽逆定義:

\(A^+ = lim_{\alpha \rightarrow 0}(A^\top A + \alpha I)^{-1}A^\top\)

通常求解下面公式:

\(A^+ = VD^+U^\top\)

跡運算

跡運算返回的是矩陣對角元素的和:

\(Tr(A)=\sum A_{i,i}\)

行列式

行列式,記作det(A),是一個將方陣A對映到實數的函式,行列式等於矩陣特徵值的乘積。