PCA主成分數量（降維維度）選擇

阿新 • • 發佈：2019-02-02

介紹

我們知道，PCA是用於對資料做降維的，我們一般用PCA把m維的資料降到k維（k < m）。

那麼問題來了，k取值多少才合適呢？

PCA誤差

PCA的原理是，為了將資料從n維降低到k維，需要找到k個向量，用於投影原始資料，是投影誤差（投影距離）最小。

這裡寫圖片描述
用公式來表示，如下

這裡寫圖片描述

其中

m表示特徵個數

分子表示原始點與投影點之間的距離之和，而誤差越小，說明降維後的資料越能完整表示降維前的資料。如果這個誤差小於0.01，說明降維後的資料能保留99%的資訊。

k值選取的原理

實際應用中，我們一般根據上式，選擇能使誤差小於0.01（99%的資訊都被保留）或0.05（95%的資訊都被保留）的k值。

而在實際編碼中，參考文章《詳解主成分分析PCA》，在PCA的實現過程中，對協方差矩陣做奇異值分解時，能得到S矩陣（特徵值矩陣）。

PCA誤差的表示式等效於下式

1−∑k1Si∑m1Si≤0.01

從程式碼示例中，可以看出，將資料從三維降到二維，保留了99.997%的資訊。

[U,S,V] = np.linalg.svd(sigma) # 奇異值分解
(S[0]+S[1])/(S[0]+S[1]+S[2])
# result = 0.99996991682077252

實際使用

用sklearn封裝的PCA方法，做PCA的程式碼如下。PCA方法引數n_components，如果設定為整數，則n_components=k。如果將其設定為小數，則說明降維後的資料能保留的資訊。

from sklearn.decomposition import PCA
import numpy as np
from sklearn.preprocessing import StandardScaler

x=np.array([[10001,2,55], [16020,4,11], [12008,6,33], [13131,8,22]])

# feature normalization (feature scaling)
X_scaler = StandardScaler()
x = X_scaler.fit_transform(x)

# PCA
pca = PCA(n_components=0.9 
)# 保證降維後的資料保持90%的資訊
pca.fit(x)
pca.transform(x)

所以在實際使用PCA時，我們不需要選擇k，而是直接設定n_components為float資料。

總結

PCA主成分數量k的選擇，是一個數據壓縮的問題。通常我們直接將sklearn中PCA方法引數n_components設定為float資料，來間接解決k值選取問題。
但有的時候我們降維只是為了觀測資料（visualization），這種情況下一般將k選擇為2或3。

參考

PCA主成分數量（降維維度）選擇

介紹我們知道，PCA是用於對資料做降維的，我們一般用PCA把m維的資料降到k維（k < m）。那麼問題來了，k取值多少才合適呢？ PCA誤差 PCA的原理是，為了將資料從n維降低到k維，需要找到k個向量，用於投影原始資料，是投影誤差（投影距離）

吳恩達機器學習（十二）主成分分析（降維、PCA）

目錄 0. 前言學習完吳恩達老師機器學習課程的降維，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心的~ 0. 前言資料的特徵數量，又稱作向量的維度。降維（dimens

【機器學習算法-python實現】PCA 主成分分析、降維

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis)，PAC的作用主要是減少數據集的維度，然後挑選出基本的特征。 PCA的主要思想是移動坐標軸，找

PCA主成分分析之三維演示(Matlab)

PCA主成分分析之三維演示(Matlab) 寫這個的主要原因是實驗課上的要求，原本需要寫一個演示 PCA 原理的 demo ，按照實驗指導書上來說，在二維上演示就好了，但是為了折騰和無聊裝逼，我寫了這個程式，我覺得更能直觀的看出 PCA 的原理。可以完整的看到資料從三維降到二維

PCA主成分分析（入門計算+深入解析）(一)

PCA主成分分析（入門+深入）+最大方差理論+幾何意義 Principal components analysis 我們在作資料分析處理時，資料往往包含多個變數，而較多的變數會帶來分析問題的複雜性。主成分分析（Principal componen

【機器學習-斯坦福】學習筆記14 主成分分析（Principal components analysis）-最大方差解釋

在這一篇之前的內容是《Factor Analysis》，由於非常理論，打算學完整個課程後再寫。在寫這篇之前，我閱讀了PCA、SVD和LDA。這幾個模型相近，卻都有自己的特點。本篇打算先介紹PCA，至於他們之間的關係，只能是邊學邊體會了。PCA以前也叫做Principal

PCA主成份分析（Spark 2.0）

PCA在Spark2.0用法比較簡單，只需要設定： .setInputCol(“features”)//保證輸入是特徵值向量 .setOutputCol(“pcaFeatures”)//輸出 .setK(3)//主成分個數注意：PCA前一定要

主成分分析（Principal components analysis）-最大方差解釋

轉載自：在這一篇之前的內容是《Factor Analysis》，由於非常理論，打算學完整個課程後再寫。在寫這篇之前，我閱讀了PCA、SVD和LDA。這幾個模型相近，卻都有自己的特點。本篇打算先介紹PCA，至於他們之間的關係，只能是邊學邊體會了。PCA以前也叫做Pri

使用主成分分析（PCA）方法對資料進行降維

我們知道當資料維度太大時，進行分類任務時會花費大量時間，因此需要進行資料降維，其中一種非常流行的降維方法叫主成分分析。 Exploratory Data Analysis 鳶尾花資料集： import numpy as np from skle

數據降維——主成分分析（PCA）

get none ont chm 公式 == amp aic strong 在數據挖掘過程中，當一個對象有多個屬性（即該對象的測量過程產生多個變量）時，會產生高維度數據，這給數據挖掘工作帶來了難度，我們希望用較少的變量來描述數據的絕大多數信息，此時一個比較好的

資料探勘學習------------------1-資料準備-４-主成分分析（PCA）降維和相關係數降維

１.４資料降維在分析多個變數時發現它們中有一定的相關性。有一種方法將多個變數綜合成少數幾個相互無關的代表性變數來代替原來的變數，這就是資料降維，可以考慮主成分分析法。 1)、主成分分析法（PCA） 1、基本思想（1）如果將選取的第一個線性組合即第一個綜合變數記為F

【機器學習】資料降維—主成分分析（PCA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。主成分分析（PCA）特徵抽取通常用於提高計算效率，降低維度災難。主成分分析（Principe component analysis，PCA）：是一種廣泛應用於不同領域的無監督

降維——PCA主成分分析

運用二維降維到一維的例子幫助理解對於如下二維資料 PCA演算法會試圖尋找一條直線使得所有資料到這個直線的距離的平方和最小（”投影誤差“最小）（圖中所有藍色線長度的平方和）（注意：做PCA之前需要將資料進行標準化，將資料對映到（0，1）區間內）對於以下兩種情況，PCA會選擇紅色線更

PCA(主成分分析)降維的概念、作用及演算法實現

1、PCA降維的概念 Principal Component Analysis(PCA)：主成分分析法，是最常用的線性降維方法。它的目標是通過某種線性投影，將高維的資料對映到低維的空間中表示，即把原先的n個特徵用數目更少的m個特徵取代，新特徵是舊特徵的線性組合。並期望在所投影的維度上資料的方

資料降維(三)PCA主成分分析

文章目錄 PCA主成分分析目標函式1:最小化重建誤差目標函式2：最大化方差 PCA目標函式計算求解PCA(1) 表現求解PCA(2) PCA總結 PCA主成分分析目標

機器學習---降維之PCA主成分分析法

（一）、主成分分析法PCA簡介 PCA 目的：降維——find a low dimension surface on which to project data ~如圖所示，尋找藍色的點到

deep learning PCA(主成分分析)、主份重構、特徵降維

前言前面幾節講到了深度學習採用的資料庫大小為28×28的手寫字，這對於機器學習領域算是比較低維的資料，一般圖片是遠遠大於這個尺寸的，比如256×256的圖片。然而特徵向量的維數過高會增加計算的複雜度，像前面訓練60000個28×28的手寫字，在我這個4G記憶體，C

主成分分析（PCA）原理詳解（轉載）

增加信息什麽之前 repl 神奇 cto gmail 協方差一、PCA簡介 1. 相關背景上完陳恩紅老師的《機器學習與知識發現》和季海波老師的《矩陣代數》兩門課之後，頗有體會。最近在做主成分分析和奇異值分解方面的項目，所以記錄一下心得體會。

[python機器學習及實踐(6)]Sklearn實現主成分分析（PCA）

相關性 hit 變量 gray tran total 空間 mach show 1.PCA原理主成分分析（Principal Component Analysis，PCA），是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量，轉換後的這組

對圖像進行主成分分析（PCV.tools.pca.pca）

div lis 完成 lose 投影 color axis 分類排序 1 引言　　1.1 維度災難　　　　分類為例：如最近鄰分類方法（基本思想：以最近的格子投票分類）　　　　問題：當數據維度增大，分類空間爆炸增長。如圖1所示，　　　　　　　　　　　　　　　　

PCA主成分數量（降維維度）選擇

介紹

PCA誤差

k值選取的原理

實際使用

總結

參考

相關推薦