3.1 Real Symmetric Matrices and Positive Definiteness 閱讀筆記
實對稱矩陣與正定性
reference的內容為唯一教程, 接下來的內容僅為本人的課後感悟, 對他人或無法起到任何指導作用.
Reference
- Course website: Symmetric Matrices and Positive Definiteness | Linear Algebra | Mathematics | MIT OpenCourseWare
- Course video: 【完整版-麻省理工-線性代數】全34講 配套教材_嗶哩嗶哩_bilibili
-
Course summary: Lecture 25: Symmetric matrices and positive definiteness (mit.edu)
- Extra reading: 線性代數與解析幾何(第二版)6.2.1 節定理 6.2.3,魏戰線 李繼成 編
這一個 Unit 的內容比較雜, 前面還是對特徵值和特徵向量的繼續討論, 只不過物件放到了一類特殊矩陣: 對稱矩陣. 有關"對稱"的定義, 在實對稱矩陣中很直觀, 接著我們會發現實對稱矩陣的很多性質, 也會引入二次型和正定的定義. 對復矩陣來說, 要考慮的是"共軛對稱", 我們會簡單說明其在 FFT 中的應用.
接下來的內容就比較散了. SVD, 線性變換與基變換, 偽逆. 其中線性變換與基變換已經早早提到過, 但是在這一講將會結合 3Blue1Brown 以更巨集觀的視角關注!
那就先從實對稱矩陣開始!
Real Symmetric Matrices
對稱矩陣的定義是 \(A=A^{\mathrm{T}}\), 實對稱矩陣需要保證元素均為實數.
Properties
實對稱矩陣有兩個特性:
- 特徵值為實數. (旋轉矩陣特徵值為純虛數)
- 特徵向量相互正交. (可以選出相互正交/ orthonormal 的向量)
在通常(可對角化)情況下, 一個矩陣可以化為: \(A=S\varLambda S^{-1}\);
在實對稱的情況下, 則有 \(A=Q\varLambda Q^{-1}\), 而對於標準正交矩陣, 有 \(Q=Q^{\mathrm{T}}\), 所以對稱矩陣可以寫為
又可以寫為
\[\varLambda=Q^{\mathrm{T}} A Q \]這個分解本身就代表著對稱, \(\left(Q\varLambda Q^{\mathrm{T}}\right)^{\mathrm{T}}=Q\varLambda Q^{\mathrm{T}}\).
Why?
一. 實對稱矩陣的特徵值為實數.
對於矩陣 \(A \bm{x}=\lambda \bm{x}\), 兩邊取共軛有\(\bar A \bar{\bm{x}}=\bar\lambda \bar {\bm{x}}\).
因為實矩陣, 因此有 \(A\bar {\bm{x}}=\bar\lambda \bar {\bm{x}}\), 從這一點也能看出實對稱矩陣如果有復特徵值則一定共軛成對出現, 對應特徵向量也是共軛成對的.
兩邊取轉置, 對稱矩陣, 有 \({\bar{\bm{x}}^{\mathrm{T}}A^{\mathrm{T}}=\bar{\bm{x}}^{\mathrm{T}}\bar\lambda}=\bar{\bm{x}}^{\mathrm{T}}A\), 對 \(\bar{\bm{x}}^{\mathrm{T}}A\) 和 \(\bar{\bm{x}}^{\mathrm{T}}\bar\lambda\) 右乘 \(\bm{x}\), 得 $\bar{\bm{x}}^{\mathrm{T}}A \bm{x} = \bar{\bm{x}}^{\mathrm{T}} \lambda \bm{x} = \bar{\bm{x}}^{\mathrm{T}} \bar{\lambda} \bm{x} $.
因此有 \(\bar{\lambda} \bar{\bm{x}}^{\mathrm{T}}\bm{x} = {\lambda} \bar{\bm{x}}^{\mathrm{T}}\bm{x}\).
而特徵向量不可能是零向量, 因此 \(\bar{\bm{x}}^{\mathrm{T}}\bm{x}=\begin{bmatrix}\bar {{x}}_1&\bar {{x}}_2&\cdots&\bar {{x}}_n\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}=\bar {{x}}_1x_1+\bar {{x}}_2x_2+\cdots+\bar {{x}}_nx_n=\displaystyle\sum_{i=1}^{n} \left\vert x_i \right\vert ^{2} > 0\). 所以兩邊消去得到 \(\lambda = \bar{\lambda}\), 特徵值一定為實數.
二. 實對稱矩陣一定可以找出組成標準正交基的特徵向量
這個證明相當的麻煩, 我又看了一遍教材才看明白... 用數學歸納法, 當 \(n = 1\) 的時候, 顯然成立, 因為只有一個獨立的特徵向量 \(\begin{bmatrix} 1 \\\end{bmatrix}\).
設 \(n = k - 1, k > 2\) 成立. 則當 \(n = k\) 時, 設 \(\lambda_1\) 為 \(k\) 階實對稱矩陣 \(A_k\) 的特徵值, \(\bm{x}_1\) 為特徵向量.
這時我們一定可以將 \(\bm{x}_1\) 擴充套件為 \(\mathbb{R}^{n}\) 的標準正交基 \(\begin{bmatrix} \alpha_1 & \cdots & \alpha_n \\\end{bmatrix}\). 怎麼做呢? 將 \(\bm{x}_1\) 單位化得到 \(\alpha_1\), 再取零空間 \(N(\alpha_1^{\mathrm{T}})\) 的標準正交基 (用 Gram-Schmidt 方法) 得到 $\begin{bmatrix} \alpha_2 & \cdots & \alpha_n \\end{bmatrix} $ (顯然秩為 1, 解空間維度為 n-1).
設 \(P = \begin{bmatrix} \alpha_1 & \cdots & \alpha_n \\\end{bmatrix}\). 則 \(A_k P = \begin{bmatrix} \lambda_1 \alpha_1 & A \alpha_2 & \cdots & A \alpha_n \\\end{bmatrix}\). 通過數感玄學可得:
\[\begin{align*} A_k P &= \begin{bmatrix} \lambda_1 \alpha_1 & A \alpha_2 & \cdots & A \alpha_n \\\end{bmatrix}\\ &= \begin{bmatrix} \alpha_1 & \cdots & \alpha_n \\\end{bmatrix} \begin{bmatrix} \lambda_1 & x_{12} & \cdots & x_{1n} \\ 0 & \vdots & & \vdots \\ \vdots & \vdots & & \vdots \\ 0 & x_{n2} & \cdots & x_{nn} \\\end{bmatrix}\\ &= P \begin{bmatrix} \lambda_1 & \bm{\beta}^{\mathrm{T}} \\ \boldsymbol{0} & A_{k-1} \\\end{bmatrix} \end{align*} \]這裡 \(A_k\) 是實對稱矩陣, \(A_k = P \begin{bmatrix} \lambda_1 & \bm{\beta}^{\mathrm{T}} \\ \boldsymbol{0} & A_{k-1} \\\end{bmatrix} P^{\mathrm{T}}\) (\(P\) 是正交矩陣!). 對稱矩陣取轉置相同, 因此對 \(A_k\) 取轉置得
\[\begin{bmatrix} \lambda_1 & \bm{\beta}^{\mathrm{T}} \\ \boldsymbol{0} & A_{k-1} \\\end{bmatrix} = \begin{bmatrix} \lambda_1 & \boldsymbol{0}^{\mathrm{T}} \\ \bm{\beta} & A_{k-1}^{\mathrm{T}} \\\end{bmatrix} \]所以有 \(\bm{\beta} = \boldsymbol{0}\), \(A_{k-1}\) 也是實對稱. (元素一定是實數啊). 根據歸納法, 存在正交矩陣 \(Q_{k-1}\) 使得 \(A_{k-1} = Q_{k-1} \varLambda_{k-1} Q_{k-1}^{\mathrm{T}}\).
通過數感玄學, 令 \(Q_k = P \begin{bmatrix} 1 & \boldsymbol{0}^{\mathrm{T}} \\ \boldsymbol{0} & Q_{k-1} \\\end{bmatrix}\), 發現這個矩陣也是正交的. 因為它的逆就是轉置. 這時我們再用數感試試 \(Q_k^{\mathrm{T}} A_k Q_k\), 看看等於什麼:
\[\begin{align*} Q_k^{\mathrm{T}} A_k Q_k &= \begin{bmatrix} 1 & \boldsymbol{0} \\ \boldsymbol{0}^{\mathrm{T}} & Q_{k-1}^{\mathrm{T}} \\\end{bmatrix} \begin{bmatrix} \lambda_1 & \bm{0}^{\mathrm{T}} \\ \boldsymbol{0} & A_{k-1} \\\end{bmatrix} \begin{bmatrix} 1 & \boldsymbol{0}^{\mathrm{T}} \\ \boldsymbol{0} & Q_{k-1} \\\end{bmatrix}\\ &= \begin{bmatrix} \lambda_1 & \boldsymbol{0} \\ \boldsymbol{0}^{\mathrm{T}} & Q_{k-1}^{\mathrm{T}} A_{k-1} Q_{k-1} \\\end{bmatrix}\\ &= \begin{bmatrix} \lambda_1 & \boldsymbol{0} \\ \boldsymbol{0}^{\mathrm{T}} & \varLambda_{k-1} \\\end{bmatrix}\\ &= \varLambda_k \end{align*} \]易證 \(\lambda_2, \cdots , \lambda_n\) 均為 \(A_k\) 的特徵值, 因此 \(Q_k\) 就是我們要找的標準正交基, 證畢.
Information about Real Symmetric Matrices
我們現在知道了實對稱矩陣特徵值和特徵向量的資訊, 有什麼用呢? 接下來從這兩個角度來解釋一下.
Projection onto Eigenvectors
如果 \(A = A^{\mathrm{T}}\), 則有:
\[\begin{align*} A &= Q\varLambda Q^{\mathrm{T}}\\ &= \Bigg[\bm{q}_1\ \bm{q}_2\ \cdots\ \bm{q}_n\Bigg]\begin{bmatrix}\lambda_1& &\cdots& \\&\lambda_2&\cdots&\\\vdots&\vdots&\ddots&\vdots\\& &\cdots&\lambda_n\end{bmatrix}\begin{bmatrix}\quad \bm{q}_1^{\mathrm{T}}\quad\\\quad \bm{q}_2^{\mathrm{T}}\quad\\\quad \vdots \quad\\\quad \bm{q}_n^{\mathrm{T}}\quad\end{bmatrix}\\ &= \lambda_1 \bm{q}_1 \bm{q}_1^{\mathrm{T}}+\lambda_2 \bm{q}_2\bm{q}_2^{\mathrm{T}}+\cdots+\lambda_n \bm{q}_n \bm{q}_n^{\mathrm{T}} \end{align*} \]注意這個展開式中的 \(\bm{q}\bm{q}^{\mathrm{T}}\), \(\bm{q}\) 是單位列向量所以 \(\bm{q}^{\mathrm{T}}\bm{q}=1\), 結合投影矩陣的知識有\(\displaystyle \frac{\bm{q}\bm{q}^{\mathrm{T}}}{\bm{q}^{\mathrm{T}}\bm{q}}=\bm{q}\bm{q}^{\mathrm{T}}\) 是 \(\bm{q}\) 方向上的投影矩陣, 很容易驗證其性質. 逆等於轉置, 平方不變. 因此:
每一個對稱矩陣都可以分解為一系列相互正交的投影矩陣.
Information about Eigenvalues
我們已經知道實數特徵值的符號和大小和系統穩定性有關. 對於微分方程 (筆記中跳過了, 詳見現代控制理論...), 特徵值的正負號會影響微分方程的收斂情況 (原課程第二十三講, 需要實部為負的特徵值保證收斂). 用消元法取得矩陣的主元, 觀察主元的符號, 發現:
主元符號的正負數量與特徵值的正負數量相同.
再判斷大小 (離散系統). 發現 \(A-bI\) 的特徵值會比原來 \(A\) 的特徵值 \(\lambda\) 小 \(b\). 因此求 \(A-bI\) 有多少個正的主元, 就有多少滿足 \(\lambda - b > 0\), 就能求出多少個 \(A\) 的特徵值大於 \(b\).
Positive Definite Matrices
如果對稱矩陣是"好矩陣", 則正定矩陣 (Positive Definite Matrices) 是其一個更好的子類. 正定矩陣指特徵值均為正數的矩陣 (根據上面的性質有矩陣的主元均為正).
舉個例子, \(\begin{bmatrix}5&2\\2&3\end{bmatrix}\), 由行列式消元知其主元為 \(5, \displaystyle \frac{11}{5}\), 於是特徵值必然大於零. 果然求特徵值有 \(\begin{vmatrix}5-\lambda&2\\2&3-\lambda\end{vmatrix}=\lambda^2-8\lambda+11=0, \lambda=4\pm\sqrt 5\). 正定.
正定矩陣的最重要的判斷性質是, 各階順序主子式大於零. 對上面的例子有\(\begin{vmatrix}5\end{vmatrix}=5, \begin{vmatrix}5&2\\2&3\end{vmatrix}=11\).
我們看到正定矩陣將早期學習的的消元主元, 中期學習的的行列式, 後期學習的特徵值結合在了一起.