1. 程式人生 > >特征降維-PCA的數學原理

特征降維-PCA的數學原理

可用 高維數據 方法 是什麽 維數 http 工作 訪客 數據挖掘

  PCA(Principal Component Analysis)是一種常用的數據分析方法。PCA通過線性變換將原始數據變換為一組各維度線性無關的表示,可用於提取數據的主要特征分量,常用於高維數據的降維。網上關於PCA的文章有很多,但是大多數只描述了PCA的分析過程,而沒有講述其中的原理。這篇文章的目的是介紹PCA的基本數學原理,幫助讀者了解PCA的工作機制是什麽。

數據的向量表示及降維問題

一般情況下,在數據挖掘和機器學習中,數據被表示為向量。例如某個淘寶店2012年全年的流量及交易情況可以看成一組記錄的集合,其中每一天的數據是一條記錄,格式如下:

(日期, 瀏覽量, 訪客數, 下單數, 成交數, 成交金額)

$((500,240,25,13,2312.15)^\mathsf{T})

其中“日期”是一個記錄標誌而非度量值,而數據挖掘關心的大多是度量值,因此如果我們忽略日期這個字段後,我們得到一組記錄,每條記錄可以被表示為一個五維向量。

參考 http://blog.codinglabs.org/articles/pca-tutorial.html

特征降維-PCA的數學原理