PCA降維python實現

阿新 • • 發佈：2019-01-17

#coding=utf-8
from numpy import *

'''通過方差的百分比來計算將資料降到多少維是比較合適的，
函式傳入的引數是特徵值和百分比percentage，返回需要降到的維度數num'''
def eigValPct(eigVals,percentage):
    sortArray=sort(eigVals) #使用numpy中的sort()對特徵值按照從小到大排序
    sortArray=sortArray[-1::-1] #特徵值從大到小排序
    arraySum=sum(sortArray) #資料全部的方差arraySum
    tempSum=0 

    num=0
    for i in sortArray:
        tempSum+=i
        num+=1
        if tempSum>=arraySum*percentage:
            return num

'''pca函式有兩個引數，其中dataMat是已經轉換成矩陣matrix形式的資料集，列表示特徵；
其中的percentage表示取前多少個特徵需要達到的方差佔比，預設為0.9'''
def pca(dataMat,percentage=0.9):
    meanVals=mean(dataMat,axis=0)  #對每一列求平均值，因為協方差的計算中需要減去均值 

    meanRemoved=dataMat-meanVals
    covMat=cov(meanRemoved,rowvar=0)  #cov()計算方差
    eigVals,eigVects=linalg.eig(mat(covMat))  #利用numpy中尋找特徵值和特徵向量的模組linalg中的eig()方法
    k=eigValPct(eigVals,percentage) #要達到方差的百分比percentage，需要前k個向量
    eigValInd=argsort(eigVals)  #對特徵值eigVals從小到大排序
    eigValInd=eigValInd[:-(k+1 
):-1] #從排好序的特徵值，從後往前取k個，這樣就實現了特徵值的從大到小排列
    redEigVects=eigVects[:,eigValInd]   #返回排序後特徵值對應的特徵向量redEigVects（主成分）
    lowDDataMat=meanRemoved*redEigVects #將原始資料投影到主成分上得到新的低維資料lowDDataMat
    reconMat=(lowDDataMat*redEigVects.T)+meanVals   #得到重構資料reconMat
    return lowDDataMat,reconMat

def get_K(dataMat,percentage):
    meanVals = mean(dataMat, axis=0)  # 對每一列求平均值，因為協方差的計算中需要減去均值
    meanRemoved = dataMat - meanVals
    covMat = cov(meanRemoved, rowvar=0)  # cov()計算方差
    eigVals, eigVects = linalg.eig(mat(covMat))  # 利用numpy中尋找特徵值和特徵向量的模組linalg中的eig()方法
    k = eigValPct(eigVals, percentage)  # 要達到方差的百分比percentage，需要前k個向量
    return k

sklearn內的PCA模組
from sklearn.decomposition import PCA

k = pca.get_K(x_train,0.99)
PCA = PCA(k,copy=True,whiten = True)
x_train = PCA.fit_transform(x_train)
x_test = PCA.transform(x_test)

PCA原理：
轉自：https://www.cnblogs.com/dengdan890730/p/5495078.html
PCA, Principle Component Analysis, 主成份分析, 是使用最廣泛的降維演算法.
……
(關於PCA的演算法步驟和應用場景隨便一搜就能找到了, 所以這裡就不說了. )

假如你要處理一個數據集, 資料集中的每條記錄都是一個dd維列向量. 但是這個dd太大了, 所以你希望把資料維度給降下來, 既可以去除一些冗餘資訊, 又可以降低處理資料時消耗的計算資源(用computation budget 來描述可能更形象).

用稍微正式點的語言描述:

已知:一個數據集DD, 記錄(或者樣本, 或input pattern)xi∈Dxi∈D 是dd維列向量.
目標:將每個x∈Dx∈D 對映到另一個pp維空間, p

PCA降維python實現

PCA降維python實現

PCA降維 python實現

PCA降維方法的python實現

PCA降維的python實現

PCA降維的原理、方法、以及python實現。

matlab實現PCA降維

PCA降維以及Kmeans聚類例項----python,sklearn,PCA,Kmeans

【Python資料探勘課程】七.PCA降維操作及subplot子圖繪製

主成分降維python程式碼實現（承接上一篇）

PCA降維演算法總結以及matlab實現PCA(個人的一點理解)

MATLAB自帶工具箱實現PCA降維程式碼,著重介紹實現方法

還在用PCA降維？快學學大牛最愛的t-SNE演算法吧（附Python/R程式碼）

關於PCA降維中遇到的python問題小結

PCA降維demo

sklearn pca降維

【資料收集】PCA降維

機器學習—PCA降維

LDA和PCA降維的原理和區別

PCA降維原理和作用

機器學習筆記（八）：PCA降維演算法

PCA降維python實現

相關推薦