幾種降維思想方法總結
資料的形式是多種多樣的,維度也是各不相同的,當實際問題中遇到很高的維度時,如何給他降到較低的維度上?前文提到進行屬性選擇,當然這是一種很好的方法,這裡另外提供一種從高維特徵空間向低緯特徵空間對映的思路。
資料降維的目的
資料降維,直觀地好處是維度降低了,便於計算和視覺化,其更深層次的意義在於有效資訊的提取綜合及無用資訊的擯棄。
資料降維的方法
主要的方法是線性對映和非線性對映方法兩大類。
線性對映
線性對映方法的代表方法有:PCA(Principal Component Analysis),LDA(Discriminant Analysis)
PCA方法簡介
主成分分析的思想,就是線性代數裡面的K-L變換,就是在均方誤差準則下失真最小的一種變換。是將原空間變換到特徵向量空間內,數學表示為
特徵向量和特徵值的意義:分別表示不同頻率及其幅度。
特徵向量和特徵值的直白理解:想在特徵空間內找到某個向量
當然在實際用時,取最大的前幾個足矣。
PCA計算是用的協方差矩陣
1. 樣本矩陣去中心化(每個資料減去對應列的均值),得到
2.
期望的定義:
3.
4. 對
其中數字表示相應第幾個屬性。
為什麼要用協方差矩陣來特向分解呢?
協方差矩陣表徵了變數之間的相關程度(維度之間關係)。
對資料相關性矩陣的特向分解,意味著找到最能表徵屬性相關性的特向(最能表徵即誤差平方最小)。PCA一開始就沒打算對資料進行特向分解,而是對資料屬性的相關性進行分析,從而表示出最能代表屬性相關性的特向,然後將原始資料向這些特向上投影。所以,有的地方說PCA去相關。
PCA的原理推導:
PCA優缺點:
優點:1)最小誤差。2)提取了主要資訊
缺點:1)計算協方差矩陣,計算量大
上述PCA中的特向分解,必須為方陣,這個條件是很苛刻的。有沒有直接對任意矩陣的分解呢,答案是有的,他的名字叫SVD分解。
SVD分解用來找到矩陣的主要部分。可以直接對資料矩陣進行分解。
其中
SVD怎麼跟這個PCA結合到一起的呢?
SVD是對
因此,可以用SVD求解特向,然後取前幾個大的特值對應的特向進行降維。
PCA想對協方差矩陣特徵向量求解,而