矩陣的奇異值分解過程

原著

矩陣的奇異值分解（singular value decomposition，簡稱SVD）是線性代數中很重要的內容，並且奇異值分解過程也是線性代數中相似對角化分解（也被稱為特徵值分解，eigenvalue decomposition，簡稱EVD）的延伸。因此，以下將從線性代數中最基礎的矩陣分解開始講起，引出奇異值分解的定義，並最終給出奇異值分解的低秩逼近問題相關的證明過程。

1 線性代數中的矩陣分解

我們在學習線性代數時，就已經接觸了線性代數中的兩個重要定理，即對角化定理和相似對角化定理，在這裡，我們先簡單地回顧一下這兩個定理。另外，在接下來的篇幅裡，我們所提到的矩陣都是指由實數構成的矩陣，即實矩陣。

給定一個大小為 $m\times m$ 的矩陣 $A$ （是方陣），其對角化分解可以寫成

$A=U\Lambda U^{-1}$

其中， $U$ 的每一列都是特徵向量， $\Lambda$ 對角線上的元素是從大到小排列的特徵值，若將 $U$ 記作 $U=\left( \bm u_1,\bm u_2,...,\bm u_m \right)$ ，則

$AU=A\left(\bm u_1,\bm u_2,...,\bm u_m\right)=\left(\lambda_1 \bm u_1,\lambda_2 \bm u_2,...,\lambda_1 \bm u_m\right)$
$=\left(\bm u_1,\bm u_2,...,\bm u_m\right) \left[ \begin{array}{ccc}\lambda_1 & \cdots & 0 \\\vdots & \ddots & \vdots \\0 & \cdots & \lambda_m \\\end{array} \right]$
$\Rightarrow AU=U\Lambda \Rightarrow A=U\Lambda U^{-1}$

更為特殊的是，當矩陣 $A$ 是一個對稱矩陣時，則存在一個對稱對角化分解，即

$A=Q\Lambda Q^T$

其中， $Q$ 的每一列都是相互正交的特徵向量，且是單位向量， $\Lambda$ 對角線上的元素是從大到小排列的特徵值。

當然，將矩陣 $Q$ 記作 $Q=\left(\bm q_1,\bm q_2,...,\bm q_m\right)$ ，則矩陣 $A$ 也可以寫成如下形式：

$A=\lambda_1 \bm q_1\bm q_1^T+\lambda_2 \bm q_2\bm q_2^T+...+\lambda_m \bm q_m\bm q_m^T$

舉一個簡單的例子，如給定一個大小為 $2\times 2$ 的矩陣 $A=\left[ \begin{array}{cc}2 & 1 \\1 & 2 \\\end{array} \right]$ ，根據 $\left|\lambda I-A\right|=\left| \begin{array}{cc}\lambda-2 & -1 \\-1 & \lambda-2 \\\end{array} \right|=0$ 求得特徵值為 $\lambda_1=3$ ， $\lambda_2=1$ ，相應地， $\bm q_1=\left(\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}\right)^T$ ， $\bm q_2=\left(-\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}\right)^T$ ，則

$A=\lambda_1 \bm q_1\bm q_1^T+\lambda_2 \bm q_2\bm q_2^T=\left[ \begin{array}{cc}2 & 1 \\1 & 2 \\\end{array} \right]$ .

這樣，我們就很容易地得到了矩陣 $A$ 的對稱對角化分解。

2 奇異值分解的定義

在上面，對於對稱的方陣而言，我們能夠進行對稱對角化分解，試想：對稱對角化分解與奇異值分解有什麼本質關係呢？

當給定一個大小為 $m\times n$ 的矩陣 $A$ ，雖然矩陣 $A$ 不一定是方陣，但大小為 $m\times m$ 的 $AA^T$ 和 $n\times n$ 的 $A^TA$ 卻是對稱矩陣，若 $AA^T=P\Lambda_1 P^T$ ， $A^TA=Q\Lambda_2Q^T$ ，則矩陣 $A$ 的奇異值分解為

$A=P\Sigma Q^T$

其中，矩陣 $P=\left(\bm p_1,\bm p_2,...,\bm p_m\right)$ 的大小為 $m\times m$ ，列向量 $\bm p_1,\bm p_2,...,\bm p_m$ 是 $AA^T$ 的特徵向量，也被稱為矩陣 $A$ 的左奇異向量（left singular vector）；矩陣 $Q=\left(\bm q_1,\bm q_2,...,\bm q_n\right)$ 的大小為 $n\times n$ ，列向量 $\bm q_1,\bm q_2,...,\bm q_n$ 是 $A^TA$ 的特徵向量，也被稱為矩陣 $A$ 的右奇異向量（right singular vector）；矩陣 $\Lambda_1$ 大小為 $m\times m$ ，矩陣 $\Lambda_2$ 大小為 $n\times n$ ，兩個矩陣對角線上的非零元素相同（即矩陣 $AA^T$ 和矩陣 $A^TA$ 的非零特徵值相同，推導過程見附錄1）；矩陣 $\Sigma$ 的大小為 $m\times n$ ，位於對角線上的元素被稱為奇異值（singular value）。

接下來，我們來看看矩陣 $\Sigma$ 與矩陣 $AA^T$ 和矩陣 $A^TA$ 的關係。令常數 $k$ 是矩陣 $A$ 的秩，則 $k\leq \min\left( m,n \right)$ ，當 $m\ne n$ 時，很明顯，矩陣 $\Lambda_1$

和矩陣 $\Lambda_2$ 的大小不同，但矩陣 $\Lambda_1$ 和矩陣 $\Lambda_2$ 對角線上的非零元素卻是相同的，若將矩陣 $\Lambda_1$ （或矩陣 $\Lambda_2$ ）對角線上的非零元素分別為 $\lambda_1,\lambda_2,...,\lambda_k$ ，其中，這些特徵值也都是非負的，再令矩陣 $\Sigma$ 對角線上的非零元素分別為 $\sigma_1,\sigma_2,...,\sigma_k$ ，則

$\sigma_1=\sqrt{\lambda_1},\sigma_2=\sqrt{\lambda_2},...,\sigma_k=\sqrt{\lambda_k}$

即非零奇異值的平方對應著矩陣 $\Lambda_1$ （或矩陣 $\Lambda_2$ ）的非零特徵值，到這裡，我們就不難看出奇異值分解與對稱對角化分解的關係了，即我們可以由對稱對角化分解得到我們想要的奇異值分解。

為了便於理解，在這裡，給定一個大小為 $2\times 2$ 的矩陣 $A=\left[ \begin{array}{cc}4 & 4 \\-3 & 3 \\\end{array} \right]$ ，雖然這個矩陣是方陣，但卻不是對稱矩陣，我們來看看它的奇異值分解是怎樣的。

由 $AA^T=\left[ \begin{array}{cc}32 & 0 \\0 & 18 \\\end{array} \right]$ 進行對稱對角化分解，得到特徵值為 $\lambda_1=32$ ， $\lambda_2=18$ ，相應地，特徵向量為 $\bm p_1=\left( 1,0 \right) ^T$ ， $\bm p_2=\left(0,1\right)^T$ ；由 $A^TA=\left[ \begin{array}{cc}25 & 7 \\7 & 25 \\\end{array} \right]$ 進行對稱對角化分解，得到特徵值為 $\lambda_1=32$ ， $\lambda_2=18$ ，相應地，特徵向量為 $\bm q_1=\left(\frac{\sqrt{2}}{2},\frac{\sqrt{2}}{2}\right)^T$ ， $\bm q_2=\left(-\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}\right)^T$ 。取 $\Sigma =\left[ \begin{array}{cc}4\sqrt{2} & 0 \\0 & 3\sqrt{2} \\\end{array} \right]$ ，則矩陣 $A$ 的奇異值分解為
$A=P\Sigma Q^T=\left(\bm p_1,\bm p_2\right)\Sigma \left(\bm q_1,\bm q_2\right)^T$

$=\left[ \begin{array}{cc}1 & 0 \\0 & 1 \\\end{array} \right]\left[ \begin{array}{cc}4\sqrt{2} & 0 \\0 & 3\sqrt{2} \\\end{array} \right]\left[ \begin{array}{cc}\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\-\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\\end{array} \right]=\left[ \begin{array}{cc}4 & 4 \\-3 & 3 \\\end{array} \right]$ .

若矩陣 $A$ 不再是一個方陣，而是一個大小為 $3\times 2$ 的 $A=\left[ \begin{array}{cc}1 & 2 \\0 & 0 \\0 & 0 \\\end{array} \right]$ ，由 $AA^T=\left[ \begin{array}{ccc}5 & 0 & 0 \\0 & 0 & 0 \\0 & 0 & 0 \\\end{array} \right]$ 得到特徵值為 $\lambda_1=5$ ， $\lambda_2=\lambda_3=0$ ，特徵向量為 $\bm p_1=\left(1,0,0\right)^T$ ， $\bm p_2=\left(0,1,0\right)^T$ ， $\bm p_3=\left(0,0,1\right)^T$ ；由 $A^TA=\left[ \begin{array}{cc}1 & 2 \\2 & 4 \\\end{array} \right]$ 得到特徵值為 $\lambda_1=5$ ， $\lambda_2=0$ ，特徵向量為 $\bm q_1=\left(\frac{\sqrt{5}}{5},\frac{2\sqrt{5}}{5}\right)^T$ ， $\bm q_2=\left(-\frac{2\sqrt{5}}{5},\frac{\sqrt{5}}{5}\right)^T$ ，令 $\Sigma=\left[ \begin{array}{cc}\sqrt{5} & 0 \\0 & 0 \\0 & 0 \\\end{array} \right]$ （注意：矩陣 $\Sigma$ 大小為 $3\times 2$ ），此時，矩陣 $A$ 的奇異值分解為

$A=P\Sigma Q^T=\left(\bm p_1,\bm p_2\right)\Sigma \left(\bm q_1,\bm q_2\right)^T$

$=\left[ \begin{array}{ccc}1 & 0 & 0 \\0 & 1 & 0 \\0 & 0 & 1 \\\end{array} \right]\left[ \begin{array}{cc}\sqrt{5} & 0 \\0 & 0 \\0 & 0 \\\end{array} \right]\left[ \begin{array}{cc}\frac{\sqrt{5}}{5} & \frac{2\sqrt{5}}{5} \\-\frac{2\sqrt{5}}{5} & \frac{\sqrt{5}}{5} \\\end{array} \right]=\left[ \begin{array}{cc}1 & 2 \\0 & 0 \\0 & 0 \\\end{array} \right]$ .

比較有趣的是，假設給定一個對稱矩陣 $A=\left[ \begin{array}{cc}2 & 1 \\1 & 2 \\\end{array} \right]$ ，它是對稱矩陣，則其奇異值分解是怎麼樣的呢？

分別計算 $AA^T$ 和 $A^TA$ ，我們會發現， $AA^T=A^TA=\left[ \begin{array}{cc}2 & 1 \\1 & 2 \\\end{array} \right]\left[ \begin{array}{cc}2 & 1 \\1 & 2 \\\end{array} \right]$ $=\left[ \begin{array}{cc}5 & 4 \\4 & 5 \\\end{array} \right]$ ，左奇異向量和右奇異向量構成的矩陣也是相等的，即 $P=Q=\left[ \begin{array}{cc}\frac{\sqrt{2}}{2} & -\frac{\sqrt{2}}{2} \\\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\\end{array} \right]$ ，更為神奇的是，該矩陣的奇異值分解和對稱對角化分解相同，都是 $A=\left[ \begin{array}{cc}\frac{\sqrt{2}}{2} & -\frac{\sqrt{2}}{2} \\\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\\end{array} \right]\left[ \begin{array}{cc}3 & 0 \\0 & 1 \\\end{array} \right]\left[ \begin{array}{cc}\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\-\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\\end{array} \right]$ 。這是由於對於正定對稱矩陣而言，奇異值分解和對稱對角化分解結果相同。

3 奇異值分解的低秩逼近

在對稱對角化分解中，若給定一個大小為 $3\times 3$ 的矩陣 $A=\left[ \begin{array}{ccc}30 & 0 & 0 \\0 & 20 & 0 \\0 & 0 & 1 \\\end{array} \right]$ ，很顯然，矩陣 $A$ 的秩為 $rank\left(A\right)=3$ ，特徵值為 $\lambda_1=30$ ， $\lambda_2=20$ ， $\lambda_3=1$ ，對應的特徵向量分別為 $\bm q_1=\left(1,0,0\right)^T$ ， $\bm q_2=\left(0,1,0\right)^T$ ， $\bm q_3=\left(0,0,1\right)^T$ ，考慮任意一個向量 $\bm v=\left(2,4,6\right)^T=2\bm q_1+4\bm q_2+6\bm q_3$ ，則

$A\bm v=A\left(2\bm q_1+4\bm q_2+6\bm q_3\right)$
$=2\lambda_1\bm q_1+4\lambda_2\bm q_2+6\lambda_3\bm q_3=60\bm q_1+80\bm q_2+6\bm q_3$

在這裡，我們會發現，即使 $\bm v$ 是一個任意向量，用矩陣 $A$ 去乘以 $\bm v$ 的效果取決於 $A$ 較大的特徵值及其特徵向量，類似地，在奇異值分解中，較大的奇異值會決定原矩陣的“主要特徵”，下面我們來看看奇異值分解的低秩逼近（有時也被稱為截斷奇異值分解）。需要說明的是，接下來的部分是從文獻《A Singularly Valuable Decomposition: The SVD of a Matrix》整理而來的。

給定一個大小為 $m\times n$ 的矩陣 $A$ ，由於 $A=P\Sigma Q^T$ 可以寫成

$A=\sum_{i=1}^{r}{\sigma_i\bm p_i\bm q_i^T}=\sigma_1\bm p_1\bm q_1^T+\sigma_2\bm p_2\bm q_2^T+...+\sigma_k\bm p_k\bm q_k^T$

其中，向量 $\bm p_1,\bm p_2,...,\bm p_k$ 之間相互正交，向量 $\bm q_1,\bm q_2,...,\bm q_k$ 之間也相互正交，由內積 $\left<\sigma_i\bm p_i\bm q_i^T,\sigma_j\bm p_j\bm q_j^T\right>=0,1\leq i\leq k,1\leq j\leq k,i\ne j$ （有興趣的讀者可以自行推算）得到矩陣 $A$ 的F-範數的平方為

$||A||_F^2=||\sigma_1\bm p_1\bm q_1^T+\sigma_2\bm p_2\bm q_2^T+...+\sigma_k\bm p_k\bm q_k^T||_F^2$ $=\sigma_1^2||\bm p_1\bm q_1^T||_F^2+\sigma_2^2||\bm p_2\bm q_2^T||_F^2+...+\sigma_k^2||\bm p_k\bm q_k^T||_F^2$ $=\sigma_1^2+\sigma_2^2+...+\sigma_k^2=\sum_{i=1}^{r}{\sigma_i^2}$

知道了矩陣 $A$ 的F-範數的平方等於其所有奇異值的平方和之後，假設 $A_1=\sigma_1\bm p_1\bm q_1^T$ 是矩陣 $A$ 的一個秩一逼近（rank one approximation），那麼，它所帶來的誤差則是 $\sigma_2^2+\sigma_3^2+...+\sigma_k^2$ （ $k$ 是矩陣 $A$ 的秩），不過如何證明 $A_1=\sigma_1\bm p_1\bm q_1^T$ 是最好的秩一逼近呢？

由於 $||A-A_1||_F^2=||P\Sigma Q^T-A_1||_F^2=||\Sigma-P^TA_1Q||_F^2$ （證明過程見附錄2），令 $P^TA_1Q=\alpha \bm x\bm y^T$ ，其中， $\alpha$ 是一個正常數，向量 $\bm x$ 和 $\bm y$ 分別是大小為 $m\times 1$ 和 $n\times 1$ 的單位向量，則

$||\Sigma-P^TA_1Q||_F^2=||\Sigma-\alpha \bm x\bm y^T||_F^2$ $=||\Sigma||_F^2+\alpha^2-2\alpha \left<\Sigma, \bm x\bm y^T\right>$

單獨看大小為 $m\times n$ 的矩陣 $\Sigma$ 和 $\bm x\bm y^T$ 的內積 $\left<\Sigma, \bm x\bm y^T\right>$ ，我們會發現，

$\left<\Sigma, \bm x\bm y^T\right>=\sum_{i=1}^{k}{\sigma_i x_i y_i}\leq \sum_{i=1}^{k}{\sigma_i\left| x_i\right|\left| y_i\right|}$
$\leq\sigma_1 \sum_{i=1}^{k}{\left| x_i\right|\left| y_i\right|}=\sigma_1\left<\bm x^*,\bm y^*\right>$ $\leq \sigma_1||\bm x^*||\cdot ||\bm y^*||\leq \sigma_1||\bm x||\cdot ||\bm y||=\sigma_1$

其中，需要注意的是， $x_i,y_i$ 分別是向量 $\bm x$ 和 $\bm y$ 的第 $i$ 個元素；向量 $\bm x^*=\left(\left|x_1\right|,\left|x_2\right|,...,\left|x_k\right|\right)^T$ 的大小為 $k\times 1$ ，向量 $\bm y^*=\left(\left|y_1\right|,\left|y_2\right|,...,\left|y_k\right|\right)^T$ 的大小也為 $k\times 1$ ，另外，以 $\bm x^*$ 為例， $||\bm x^*||=\sqrt{x_1^2+x_2^2+...+x_k^2}$ 是向量的模，則 $||A-A_1||_F^2$ （殘差矩陣的平方和）為

$||\Sigma-\alpha \bm x\bm y^T||_F^2\geq ||\Sigma||_F^2+\alpha^2-2\alpha \sigma_1$ $=||\Sigma||_F^2+\left(\alpha-\sigma_1\right)^2-\sigma_1^2$

當且僅當 $\alpha=\sigma_1$ 時， $||A-A_1||_F^2$ 取得最小值 $\sigma_2^2+\sigma_3^2+...+\sigma_k^2$ ，此時，矩陣 $A$ 的秩一逼近恰好是 $A_1=\sigma_1\bm p_1\bm q_1^T$ .

當然，我們也可以證明 $A_2=\sigma_2\bm p_2\bm q_2^T$ 是矩陣 $A-A_1$ 的最佳秩一逼近，以此類推， $A_r=\sigma_r\bm p_r\bm q_r^T,r< k$ 是矩陣 $A-A_1-A_2-...-A_{r-1}$ 的最佳秩一逼近。由於矩陣 $A_1+A_2+...+A_r$ 的秩為 $r$ ，這樣，我們可以得到矩陣 $A$ 的最佳秩 $r$ 逼近（rank $r$ approximation），即

$A\approx A_1+A_2+...+A_r=\sum_{i=1}^{r}{A_i}$ .

這裡得到的矩陣 $P_r$ 的大小為 $m\times r$ ，矩陣 $\Sigma_r$ 的大小為 $k\times k$ ，矩陣 $Q_r$ 的大小為 $n\times k$ ，矩陣 $A$ 可以用 $P_r\Sigma_rQ_r^T$ 來做近似。

用低秩逼近去近似矩陣 $A$ 有什麼價值呢？給定一個很大的矩陣，大小為 $m\times n$ ，我們需要儲存的元素數量是 $mn$ 個，當矩陣 $A$ 的秩 $k$ 遠小於 $m$ 和 $n$ ，我們只需要儲存 $k(m+n+1)$ 個元素就能得到原矩陣 $A$ ，即 $k$ 個奇異值、 $km$

矩陣的奇異值分解過程

矩陣的奇異值分解過程

機器學習中的數學-強大的矩陣奇異值分解(SVD)及其應用

奇異值的物理意義是什麼？強大的矩陣奇異值分解(SVD)及其應用

強大的矩陣奇異值分解(SVD)及其應用

矩陣奇異值分解

利用矩陣奇異值分解對影象進行壓縮

Ubuntu下C++基於eigen庫SVD矩陣奇異值分解效率分析

矩陣論奇異值分解

矩陣論（三）：矩陣分解—從Schur分解、特徵值分解EVD到奇異值分解SVD

線性代數基礎（矩陣、範數、正交、特徵值分解、奇異值分解、跡運算）

【轉載】奇異值分解(SVD)計算過程示例

矩陣分解 - 奇異值分解(SVD)

矩陣的特徵值分解與奇異值分解的幾何意義

矩陣特徵值分解與奇異值分解含義解析及應用

矩陣的奇異值分解（SVD）（理論）

矩陣分解 (特徵值/奇異值分解+SVD+解齊次/非齊次線性方程組)

3D-3D座標 SVD奇異值分解 ICP迭代最近點 G2O優化求解求旋轉平移矩陣 R t

協方差矩陣的幾何解釋--協方差矩陣的特徵值分解部分，很好的解釋了奇異值分解主成分選擇的原因

SVD分解（奇異值分解）求旋轉矩陣

矩陣分解：奇異值分解（SVD）詳解

矩陣的奇異值分解過程

相關推薦