1. 程式人生 > >核範數以及低秩RPCA

核範數以及低秩RPCA

0範數是指矩陣非零元素的個數
1範數是矩陣所有元素絕對值的和
2範數對應歐式距離
無窮範數對應矩陣所有元素絕對值中最大的那個值
核範數||W||*是指矩陣奇異值的和,英文稱呼叫Nuclear Norm

核範數可以約束低秩,而低秩的應用範圍較廣
 
   PCA,這種方法可以有效的找出資料中最主要的元素和結構,去除噪聲和冗餘,將原有複雜資料降維,揭示隱藏在複雜資料背後的簡單結構。我們知道,最簡單的主成分分析方法就是PCA,從線性代數的角度看,PCa的目標就是使用另外一組基去重新描述得到的資料空間,希望在這個新的基下,能儘量揭示原有的資料間的關係。這個維度即最重要的“”主元。PCA的目標就是找到這樣的主元,最大程度的去除冗餘和噪音的干擾。
    PRCA考慮的是這樣一個問題,一般我們的資料矩陣會包含結構資訊,也包含噪聲,那麼我們可以將這個矩陣分解為兩個矩陣相加,一個是低秩(由於內部包含有一定的結構資訊,造成各行或各列間是線性相關的),另一個是稀疏的(由於含有噪聲,而噪聲是稀疏的)
    與PCA一樣,RPCA本質上也是尋找資料在低維空間上的最佳投影問題。對於低秩資料觀測矩陣X,假設X受到隨機(稀疏)噪聲的影響,那麼X的低秩性就會被破壞,使得X變成滿秩。所以我們就需要將X分解成包含其真實結構的低秩矩陣和稀疏噪聲矩陣之和。找到了低秩矩陣,實際上就找到了資料的本質低維空間,那麼有了PCA,為什麼還有RPCA,因為PCA假設我們的資料噪聲是高斯的,對於大的噪聲或者嚴重的離群點,PCA會被其影響,導致無法正常工作。而RPCA則不存在這個假設。它只是假設噪聲是稀疏的,而不管噪聲的強弱如何。


RPCA與矩陣秩

如果X是一個m行n列的數值矩陣,rank(X)是X的秩,假如rank (X)遠小於m和n,則我們稱X是低秩矩陣。低秩矩陣每行或每列都可以用其他的行或列線性表出,可見它包含大量的冗餘資訊。利用這種冗餘資訊,可以對缺失資料進行恢復,也可以對資料進行特徵提取。

[email protected]