PCA降維的原理及步驟

阿新 • • 發佈：2019-01-03

*****降維的作用*****

①資料在低維下更容易處理、更容易使用；
②相關特徵，特別是重要特徵更能在資料中明確的顯示出來；如果只有兩維或者三維的話，更便於視覺化展示；
③去除資料噪聲
④降低演算法開銷

*****降維通俗點的解釋*****

一些高維度的資料，比如淘寶交易資料，為便於解釋降維作用，我們在這假設有下單數，付款數，商品類別，售價四個維度，資料量上百萬條，對於下單數和付款數，我們可以認為兩者是線性相關的，即知道下單數，我們可以得到付款數，這裡很明顯這兩個屬性維度有冗餘，去掉下單數，保留付款數，明顯能再保證原有資料分佈和資訊的情況下有效簡化資料，對於後面的模型學習會縮短不少時間和空間開銷。這就是降維，當然並不是所有資料中都會有過於明顯線性相關的屬性維度，我們降維後最終的目標是各個屬性維度之間線性無關。

*****PCA降維步驟原理******

首先既然要度量那些是否存在相關的屬性，我們就要用到協方差，在部落格相關分析中有介紹，這裡不再贅述，協方差衡量的是2維屬性間的相關性，對於n個維度的屬性，就需要協方差矩陣，其對角線為各維度的方差。

步驟：

設有m條n維資料。

1）將原始資料按列組成n行m列矩陣X

2）將X的每一行（代表一個屬性欄位）進行零均值化，即減去這一行的均值

3）求出協方差矩陣

4）求出協方差矩陣的特徵值及對應的特徵向量r

5）將特徵向量按對應特徵值大小從上到下按行排列成矩陣，取前k行組成矩陣P

6）即為降維到k維後的資料

*****關於維數k的選擇******

使用一個公式error=，表示壓縮後的誤差，m所有特徵的個數，然後確定一個閾值x，比如0.01，選取一個K，使得error < x則我們認為這個m可以接受，否則嘗試其他.

**************python中sklearn庫的pca實現**************************

from sklearn.decomposition import PCA
import numpy as np
from sklearn.preprocessing import StandardScaler

x=np.array([[10001,2,55], [16020,4,11], [12008,6,33], [13131,8,22]])

# feature normalization (feature scaling)
X_scaler = StandardScaler()
x = X_scaler.fit_transform(x)

# PCA
pca = PCA(n_components=0.9)# 保證降維後的資料保持90%的資訊
pca.fit(x)
pca.transform(x)

PCA降維的原理及步驟

PCA降維原理和作用

PCA降維原理以及舉例

【Python資料探勘課程】七.PCA降維操作及subplot子圖繪製

PCA降維的原理及步驟

LDA和PCA降維的原理和區別

協方差及PCA降維計算

【轉載】PCA降維數學原理

PCA降維的原理、方法、以及python實現。

PCA降維demo

sklearn pca降維

【資料收集】PCA降維

redis的主從復制原理及步驟

機器學習—PCA降維

CRC校驗原理及步驟

CRC校驗原理及步驟（轉載只是為了查閱方便，若侵權立刪）

機器學習筆記（八）：PCA降維演算法

scikit-learn使用PCA降維小結

matlab實現PCA降維

PCA降維例項[GridSearchCV求最優參]

PCA 降維方法的簡單使用

PCA降維的原理及步驟

相關推薦