1. 程式人生 > >資料降維--低秩恢復

資料降維--低秩恢復

在實際的訊號或影象採集與處理中,資料的維度越高, 給資料的採集和處理帶來越大的限制。例如,在採集三維或四維(三個空間維度再加上一個頻譜維度或一個時間維度) 訊號時,往往比較困難。然而,隨著資料維數的升高,這些高維資料之間往往存在較多的相關性冗餘度。訊號的維度越高,由於資料本身資訊量的增長比資料維度增長慢得多,也就使得資料變得越冗餘。一個明顯的例子就是,視訊訊號要比單幅影象的可壓縮的空間大得多。

例如,對於一幅影象而言,其畫素間的相關性表現在影象在某個變換域的係數是稀疏分佈的;如何合理和充分利用高維資料間存在的稀疏性和冗餘性,對於高效地採集、表示、重構這些資料是十分重要的。

更具挑戰性的問題是,這些大規模資料中往往含有空缺元素、大的誤差、損毀等, 這為分析和處理這些大規模資料進一步帶來了困難。這種現象在很多實際應用中十分常見。例如,在人臉識別中,訓練集中的或是待識別的人臉影象往往含有陰影、高光、遮擋、變形等; 在運動恢復結構(Structure frommotion, SFM)問題中, 進行特徵提取和特徵匹配時往往存在大的匹配誤差。

稀疏性是指向量或矩陣中大部分元素為0,矩陣的低秩性是指矩陣的秩相對於矩陣的行數或列數而言很小。如果對矩陣進行奇異值分解,並把其所有奇異值排列為一個向量,那麼這個向量的稀疏性便對應於該矩陣的低秩性。

低秩性可以看做是稀疏性在矩陣上的拓展,矩陣秩最小化主要是指利用原始資料矩陣的低秩性進行矩陣的重建,這涉及到最小化矩陣的秩函式。低秩矩陣恢復則是指同時利用原始資料矩陣的低秩性誤差矩陣的稀疏性來恢復資料矩陣。

矩陣秩最小化的一個典型應用是低秩矩陣填充(Low-rankmatrix completion)

問題:假定原始資料矩陣是低秩的,但是矩陣中含有很多未知的元素。從一個不完整的矩陣中恢復出一個完整的低秩矩陣,便是低秩矩陣填充問題。

例如,著名的Netflix問題便是一個典型的低秩矩陣填充問題。Netflix是美國的一家影片租賃公司。其推薦系統(Recommendation system) 要從使用者僅有的對少數的電影打分中為使用者推薦影片。如果這種推薦越符合使用者的喜好,也就越能提高該公司租賃電影的業務量。為此,該公司設立了百萬美元的獎金用於懸賞能夠最好地提高該公司推薦系統質量的解決方法。這個問題可以用矩陣填充來進行建模,假設矩陣的每一行代表同一使用者對不同電影的打分,每一列代表不同使用者對同一電影的打分。使用者數量巨大,電影數目巨大,因此這個矩陣的維度十分大。由於使用者所打分的電影有限,這個矩陣中只有很小一部分的元素值已知,而且可能含有噪聲或誤差。那麼Netflix問題就是如何從這個不完整的矩陣中推測其中未知元素的值。矩陣填充得越準確,為使用者推薦的電影也就越符合使用者的喜好。由於影響使用者對電影喜好的因素數目有限,如電影的題材、演員、年代、導演等,這個矩陣本質上是一個低秩矩陣。

詳細可以參考一下文章:從壓縮感測到低秩矩陣恢復_理論與應用.pdf

                                      低秩恢復演算法綜述.pdf

                                      壓縮感知及其影象處理應用研究進展與展望.pdf