2.3 Projection Matrices and Least Squares 閱讀筆記
投影矩陣和最小二乘法
reference的內容為唯一教程,接下來的內容僅為本人的課後感悟,對他人或無法起到任何指導作用。
Reference
- Course website: Projection Matrices and Least Squares | Unit II: Least Squares, Determinants and Eigenvalues | Linear Algebra | Mathematics | MIT OpenCourseWare
- Course video: 【完整版-麻省理工-線性代數】全34講 配套教材_嗶哩嗶哩_bilibili
-
Course summary:
- Extra Reading: Section 4.3 in Introduction to Linear Algebra, Fifth Edition by Gilbert Strang. 和 常用的向量矩陣求導公式_TangowL-CSDN部落格_向量求導法則
現在有幾個問題仍未解決:
-
2.1 中為什麼最後的兩個結論成立?
\[\boldsymbol{N}(\boldsymbol{A}^{\boldsymbol{\mathrm{T}}}\boldsymbol{A})=\boldsymbol{N}(\boldsymbol{A})\\ \text{rank}(\boldsymbol{A}^{\boldsymbol{\mathrm{T}}}\boldsymbol{A})=\text{rank}(\boldsymbol{A}) \] -
最小二乘法的幾何意義?
這一講一邊複習投影矩陣,一邊詳細解釋最小二乘法,最後開一個標準正交基的概念。
Recap on Projection Matrices
我們都知道投影矩陣 \(\boldsymbol{P}=\boldsymbol{A}(\boldsymbol{A^{\mathrm{T}}\boldsymbol{A}})^{-1}\boldsymbol{A^{\mathrm{T}}}\)。
- \(\boldsymbol{b} \perp \boldsymbol{C}(\boldsymbol{A})\): 則 Pb 為零向量,投影只能投到一個點,就是零向量(因為起始點為原點)
-
\(\boldsymbol{b} \in \boldsymbol{C}(\boldsymbol{A})\)
這些是從幾何意義來看的,代數上:
- \(\boldsymbol{b} \perp \boldsymbol{C}(\boldsymbol{A})\): \(\boldsymbol{A}(\boldsymbol{A^{\mathrm{T}}\boldsymbol{A}})^{-1}\boldsymbol{A^{\mathrm{T}}}\boldsymbol{b}=\boldsymbol{A}(\boldsymbol{A^{\mathrm{T}}\boldsymbol{A}})^{-1}(\boldsymbol{A^{\mathrm{T}}}\boldsymbol{b})=\boldsymbol{0}\),因為 b ∈ N(AT) ⊥ C(A)
- \(\boldsymbol{b} \in \boldsymbol{C}(\boldsymbol{A})\): \(\boldsymbol{A}(\boldsymbol{A^{\mathrm{T}}\boldsymbol{A}})^{-1}\boldsymbol{A^{\mathrm{T}}}\boldsymbol{b}=\boldsymbol{A}(\boldsymbol{A^{\mathrm{T}}\boldsymbol{A}})^{-1}\boldsymbol{A^{\mathrm{T}}}\boldsymbol{A}\boldsymbol{x}=\boldsymbol{A}((\boldsymbol{A^{\mathrm{T}}\boldsymbol{A}})^{-1}(\boldsymbol{A^{\mathrm{T}}}\boldsymbol{A}))\boldsymbol{x}=\boldsymbol{Ax}=\boldsymbol{b}\)
向量 p + e = b,p 在 A 的列空間裡,投影矩陣為 P,而 e 在 A 的什麼空間呢?左零空間,因為 e 和 C(A) 正交。那麼把 p 投影到 A 的左零空間得到的投影向量便是 e 了,對應的投影矩陣是什麼?
- \(\boldsymbol{e}=\boldsymbol{b}-\boldsymbol{p}=\boldsymbol{b}-\boldsymbol{Pb}=(\boldsymbol{I}-\boldsymbol{P})\boldsymbol{b}\),故 P' = I-P
Least Squares
上一節我們已經知道了怎麼用投影的方式擬合直線了,還算出結果來了。
整個過程是:
- 找出擬合直線係數 \(\hat {\boldsymbol{x}}\) 和投影向量 \(\boldsymbol{p}\) 。
- 使得 \(\boldsymbol{A}^\mathrm{T}\boldsymbol{b}=\boldsymbol{A}^\mathrm{T}\boldsymbol{A}\hat {\boldsymbol{x}}\),解出 \(\hat {\boldsymbol{x}}\) 和 \(\boldsymbol{p}=\boldsymbol{A}\hat {\boldsymbol{x}}\)。
為什麼用投影的方式 \(\boldsymbol{A}^\mathrm{T}\boldsymbol{b}=\boldsymbol{A}^\mathrm{T}\boldsymbol{A}\hat {\boldsymbol{x}}\) 解不可解方程叫做 Least Squares 呢?
先給出 Least Squares 名字的由來:給定不可解方程 \(\boldsymbol{Ax}=\boldsymbol{b}\),求出 x 使誤差的平方和最小,也就是誤差向量 e 的模的平方最小。誤差是資料點到擬合曲線縱座標的差(並不是距離!雖然只是差個係數)
也就是說求:
\[\underset{\boldsymbol{x}}{\arg\min}\left \| \boldsymbol{A}\boldsymbol{x}-\boldsymbol{b} \right \|^{2} \]如果 \(\underset{\boldsymbol{x}}{\arg\min}\left \| \boldsymbol{A}\boldsymbol{x}-\boldsymbol{b} \right \|^{2}=\hat{\boldsymbol{x}}=(\boldsymbol{A^{\mathrm{T}}\boldsymbol{A}})^{-1}\boldsymbol{A^{\mathrm{T}}}\),便能解釋了。本節給出兩個角度證明,我又用矩陣求導的角度算了一下,放在附錄了 (懶得敲公式了而且這種純算數的東西有什麼意義嗎?)。
Geometry
Ax 是 列空間任意向量,注意看綠色的三個向量 e,Ax-b,Ax-p,構成直角三角形,因為 e 在左零空間,和在列空間的 Ax-p 是正交的。因此 Ax-b 向量的模相當於直角三角形的斜邊了,幾何上,只有 Ax-b 垂直於 C(A),模才最短。
代數上 \(\underset{\boldsymbol{x}}{\arg\min}\left \| \boldsymbol{A}\boldsymbol{x}-\boldsymbol{b} \right \|^{2}=\underset{\boldsymbol{x}}{\arg\min}(\left \| \boldsymbol{A}\boldsymbol{x}-\boldsymbol{p} \right \|^{2}+\left \| \boldsymbol{e} \right \|^{2})\)。因此 x 為 滿足 Ax=p 的 x。所以 \(\boldsymbol{x}=\hat{\boldsymbol{x}}\)。此時的誤差正好等於投影向量與原向量的誤差。
Derivative
已經有:
\[\begin{matrix}C &+ &D &= &1 \\C &+ &2D &= &2 \\C &+ &3D &= &2 \end{matrix} \]於是
\[\begin{matrix} & \underset{\boldsymbol{x}}{\arg\min}\left \| \boldsymbol{A}\boldsymbol{x}-\boldsymbol{b} \right \|^{2}\\ = & \underset{C,D}{\arg\min}\{(C+D-1)^{2}+(C+2D-2)^{2}+(C+3D-2)^{2}\}\\ = & \underset{C,D}{\arg\min}f(C,D) \end{matrix} \]對 f 求 C 和 D 的偏導得:
正好和:
一致。
Matrix Derivative
略。
Drawback
線性擬合會受到異常資料點/離群量 (outlier) 干擾,導致和理論得直線偏差過大。
此外很多問題是非線性的,怎麼能用直線擬合?
Prove \(\boldsymbol{A}^\mathrm{T}\boldsymbol{A}\) Properties
\[\boldsymbol{N}(\boldsymbol{A}^{\boldsymbol{\mathrm{T}}}\boldsymbol{A})=\boldsymbol{N}(\boldsymbol{A})\\ \text{rank}(\boldsymbol{A}^{\boldsymbol{\mathrm{T}}}\boldsymbol{A})=\text{rank}(\boldsymbol{A}) \]-
需要證明 \(\boldsymbol{A}^{\boldsymbol{\mathrm{T}}}\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0}\) 的解空間和 \(\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0}\) 一致。也就是說證明 \(\boldsymbol{A}^{\boldsymbol{\mathrm{T}}}\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0}\Rightarrow\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0}\)。
\[\begin{matrix} &\boldsymbol{A}^{\boldsymbol{\mathrm{T}}}\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0} \\\Rightarrow &\boldsymbol{x}^{\mathrm{T}}\boldsymbol{A}^{\boldsymbol{\mathrm{T}}}\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0} \\\Rightarrow &(\boldsymbol{A}\boldsymbol{x})^{\mathrm{T}}\boldsymbol{A}\boldsymbol{x}=\boldsymbol{0} \\\Rightarrow &\left \| \boldsymbol{Ax} \right \|^{2}=\boldsymbol{0} \\\Rightarrow &\boldsymbol{Ax}=\boldsymbol{0} \end{matrix} \] -
零空間都一樣,故 dim 一樣,r = n - dim 且 n 一樣,故 r 一樣。
-
然後利用第二條就能證明 A 列滿秩 ATA 方陣可逆。
為什麼可以用最小二乘法,可以用公式 \(\hat{\boldsymbol{x}}=(\boldsymbol{A^{\mathrm{T}}\boldsymbol{A}})^{-1}\boldsymbol{A^{\mathrm{T}}}\) 來求 Ax=b 的近似解?大前提就是 ATA 方陣可逆,A 列滿秩。
Dependent Columns
如果不滿足呢?舉個例子:
顯然 C+Dt 無法表示一個垂直 t 軸的直線,因此無法穿過 (1,1) 和 (1,3)。為了使擬合直線距離兩個點在 t=1 的誤差最小,顯然需要穿過 (1,2) 這個點,但是這會有無窮多的解。學了偽逆之後我們會有一個從這些解中選擇的基準。接下來,還是討論如果 A 的列向量獨立的情況吧。
Orthonormal Vectors
其實一組相互正交的單位向量可以作為一組基,一定是獨立的,稱為標準正交向量 (Orthonormal Vectors),它們可以構成標準正交基。下一講我們會說明如果對列向量獨立的矩陣 A 求出其列空間標準正交基,並說明這樣做的好處.