降維演算法(LASSO、PCA、聚類分析、小波分析、線性判別分析、拉普拉斯特徵對映、區域性線性嵌入)
1、LASSO
LASSO全稱least absolute shrinkage and selection operator,本身是一種迴歸方法。與常規迴歸方法不同的是,LASSO可以對通過引數縮減對引數進行選擇,從而達到降維的目的。說到LASSO,就不得不說嶺迴歸,因為LASSO就是針對嶺迴歸不能做引數選擇的問題提出來的。關於嶺迴歸的解釋,可以參照我的另一篇文章預測數值型資料:迴歸(二),這裡不再贅述。
值得說明的是,嶺迴歸的優化目標函式為
LASSO的優化目標函式為
不難看出由於一範數規定的範圍四四方方,所以最優解的係數會剛好被縮減為0,因此LASSO可以實現對變數的選擇。
2、主成分分析
關於PCA的解釋,可以參照我的另一篇文章PCA主成分分析,這裡不再贅述。
3、聚類分析
大家所熟知的聚類分析演算法如K-means等是一種面對小資料的無監督學習演算法,可有效解決低維資料空間的聚類問題。然而在處理高維資料和大型資料等情況時,傳統聚類方法往往會失效,這是由於高位資料及中常常存在很多冗餘屬性且資料在高維分佈非常稀疏,距離函式失效。為了解決高維度資料的聚類問題,學術界提出了一種名為高維聚類的演算法,具體分為基於屬性約減(降維)的方法、基於子空間的方法等。其思想大概是通過特徵選擇或者特徵變換等方法將原始資料集從高維空間轉換到低維空間,再利用傳統聚類的思想進行聚類。
4、小波分析
小波分析的實質就是將原始訊號表示為一組小波基的線性組合。我們可以通過忽略其中不重要的部分來達到降維的目的。
這種思想具體可以用傅立葉變換進行類比。傅立葉變換用不同頻率的三角函式的和去擬合原始訊號,對於每個單獨的三角函式,只需要記錄其相位和幅度即可,同時,利用相位和幅度可以完美的重構出原始訊號。另外,由於高頻分量往往是訊號中的噪音,通過去除高頻分量可以達到降維的目的。
5、線性判別分析
6、拉普拉斯特徵對映
7、區域性線性嵌入
關於拉普拉斯特徵對映的解釋,可以參照我的另一篇文章區域性線性嵌入(LLE),這裡不再贅述。