1. 程式人生 > >主成分分析以及應用:企業綜合實力排序

主成分分析以及應用:企業綜合實力排序

這段時間一直在學習資料探勘的一些演算法,今天通過不斷查閱資料,學習整理了一下主成分分析這個資料降維演算法。並且結合一個例項進行matlab程式設計實現。

  1. 主成分基本原理

    在資料探勘中,經常會遇到一個問題就是一個問題出現了n多個變數,而且變數之間還可能會存在各種複雜的相互聯絡,變數之間並不是獨立的。那麼主成分分析就是將多個變數綜合為少數幾個代表性的變數,而且這些主要的變數僅能夠代表原始變數的絕大多數資訊又互不相關的一種資料降維演算法。

    主成分分析採取一種資料降維思想,其所要做的就是設法就原來眾多的具有一定相關性的變數,重新組合為一種新的相互無關的綜合變數來代表原來的眾多個變數。它藉助於一個正交變換,將其分量相關的原隨機向量轉化成其分量不相關的新隨機向量,這在代數上表現為將原隨機向量的協方差陣變換成對角形陣,在幾何上表現為將原座標系變換成新的正交座標系,使之指向樣本點散佈最開的p 個正交方向,然後對多維變數系統進行降維處理,使之能以一個較高的精度轉換成低維變數系統,再通過構造適當的價值函式,進一步把低維繫統轉化成一維繫統。

    主成分分析的原理是設法將原來變數重新組合成一組新的相互無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數儘可能多地反映原來變數的資訊的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的資訊越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的資訊,再考慮選取F2即選第二個線性組合,為了有效地反映原來資訊,F1已有的資訊就不需要再出現再F2中,用數學語言表達就是要求:
    C

    ovF1,F2=0
    則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。

  2. PCA方法計算步驟
    (1)首先對於原始資料進行標準化處理。
    X=

    x11x21xn1x12x22xn2x1px2pxnp
    那麼就可以將X按照列進行Zscore標準化.其轉化函式為:
    x=xμσ
    其中μ為按照列計算得到的樣本資料均值,σ 位按照列計算得到的樣本資料的標準差。
    (2)計算經過標準化處理後得到的資料的相關性矩陣。
    R=
    r11r21rn1r12r22rn2r1pr2prnp
    其中:rij=Cov(xi,xj)var
    (xi)
    var(xj)
    =k=nk=1(xkix¯i)(xkjx¯j)k=nk=1(xkix¯i)k=nk=1(xkjx¯j)n>1.
    (3)計算相關係數矩陣R特徵值(λ1,λ2,,λp 和相應的特性向量ai=(ai1,ai2,,ai3)
    (4)對特徵值進行降序排列。
    (5)計算降序排列後的特徵值的貢獻率以及累計貢獻率
    contr

    相關推薦

    成分分析以及應用企業綜合實力排序

    這段時間一直在學習資料探勘的一些演算法,今天通過不斷查閱資料,學習整理了一下主成分分析這個資料降維演算法。並且結合一個例項進行matlab程式設計實現。 主成分基本原理 在資料探勘中,經常會遇到一個問題就是一個問題出現了n多個變數,而且變數之間還可能會存在

    成分分析應用

    PCA是一種統計方法,常用於解決資料降維、演算法加速和資料視覺化等問題,背後的數學工具是SVD。 一、主成分分析的內涵 通過正交變換將一組個數較多的、彼此相關的、意義單一的指標變數轉化為個數較少的、彼此不相關的、意義綜合的指標變數。轉換後的這組 變數叫主成分。 二、關於降維 1.必要性 (1)多重

    成分分析PCA演算法為什麼去均值以後的高維矩陣乘以其協方差矩陣的特徵向量矩陣就是“投影”?

    這是從網上看到的PCA演算法的步驟: 第一步,分別求每列的平均值,然後對於所有的樣例,都減去對應的均值。 第二步,求特徵協方差矩陣。 第三步,求協方差的特徵值…顯示全部 關注者 1,218 被瀏覽 78,113 關注問題寫回答 ​新增評論 ​分享 ​邀請回答

    成分分析(PCA)演算法以及PCA在人臉識別上的應用及程式碼

            PCA(Principal Component Analysis)是一種常用的資料分析方法,PCA通過線性變換將原始資料變換為一組各維度線性無關的表示,可用於提取資料的主要特徵分量,可用於高維資料的降維。        一般情況下,在資料探勘和機器學習中,資

    PCA(成分分析)原理,步驟詳解以及應用

    主成分分析(PCA, Principal Component Analysis) 一個非監督的機器學習演算法 主要用於資料的降維處理 通過降維,可以發現更便於人類理解的特徵 其他應用:資料視覺化,去噪等   主成分分析是儘可能地忠實再現原始重要資訊的資料降維方法   原理推導: 如圖,

    我的R之路成分分析

    log -1 plot code style 9.png ngs alt 顯示 主成分分析是利用降維的方法,在損失很少信息量很少的前提下 X1 X2 X3 X4 X5 X6 X7 X8 1 90342 52

    chapter02 PCA成分分析在手寫數字識別分類的應用

    git 性能 .cn its nts line hive 基礎上 存儲 #coding=utf8 # 導入numpy工具包。 import numpy as np # 導入pandas用於數據分析。 import pandas as pd from sklearn.me

    機器學習之路python 特征降維 成分分析 PCA

    repo nts total python learning bsp ota spa 像素 python3 學習api使用 主成分分析方法實現降低維度 使用了網絡上的數據集,我已經下載到了本地,可以去我的git上參考 git:https://github.com/lin

    成分分析PCA以及特徵值和特徵向量的意義

    定義: 主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。PCA的思想是將n維特徵對映到k維上(k<n),這k維是全新的正交特徵

    成分分析(PCA)在壓縮影象方面的應用

    一、主成分分析的原理主成分分析能夠通過提取資料的主要成分,減少資料的特徵,達到資料降維的目的。具體的原理可參見之前寫的關於PCA原理的一篇文章:二、使用matlab模擬實現%% 利用PCA對影象壓縮 close all clear all clc %% 輸入 In = i

    精通Excel資料統計與分析 - 摘要 (第11章成分分析和因子分析

    一、簡介 11.1主成分分析 主成分分析,是將多個變數通過線性變換以選出較少個數重要變數的一種多元統計分析方法,又稱主分量分析; 主成分分析是在減少分析變數個數的同時,保留較多的原始資訊; 可以理解為減少一個矩陣的行; 11.2因子分析

    機器學習(十三)CS229ML課程筆記(9)——因子分析成分分析(PCA)、獨立成分分析(ICA)

    1.因子分析:高維樣本點實際上是由低維樣本點經過高斯分佈、線性變換、誤差擾動生成的,因子分析是一種資料簡化技術,是一種資料的降維方法,可以從原始高維資料中,挖掘出仍然能表現眾多原始變數主要資訊的低維資料。是基於一種概率模型,使用EM演算法來估計引數。因子分析,是分析屬性們的公

    資料科學個人筆記偏最小二乘迴歸+成分分析+典型相關分析

    偏最小二乘迴歸是PCA、CCA和傳統最小二乘模型的結合。 一、PCA主成分分析: 1.我們希望對資料進行有失真壓縮,即將屬於R^n的x投影為屬於R^l的c,有編碼函式f(x)=c,使得損失的資訊儘量少。同時有對應的解碼函式g(c)約等於x。 2.PCA由我們確定的解碼函

    Deep Learning 3_深度學習UFLDL教程預處理之成分分析與白化_總結(斯坦福大學深度學習教程)

    1PCA     ①PCA的作用:一是降維;二是可用於資料視覺化; 注意:降維的原因是因為原始資料太大,希望提高訓練速度但又不希望產生很大的誤差。     ② PCA的使用場合:一是希望提高訓練速度;二是記憶體太小;三是希望資料視覺化。     ③用PCA前的預處理:(1)規整化特徵的均值大致為0;(

    深度學習入門教程UFLDL學習實驗筆記三成分分析PCA與白化whitening

    主成分分析與白化是在做深度學習訓練時最常見的兩種預處理的方法,主成分分析是一種我們用的很多的降維的一種手段,通過PCA降維,我們能夠有效的降低資料的維度,加快運算速度。而白化就是為了使得每個特徵能有同樣的方差,降低相鄰畫素的相關性。 主成分分析PCA 第一步:首先我們需要獲取旋轉矩陣U,為了實現這一目的,我

    機器學習(七)成分分析PCA降維_Python

    六、PCA主成分分析(降維) 1、用處 資料壓縮(Data Compression),使程式執行更快 視覺化資料,例如3D-->2D等 …… 2、2D–>1D,nD–&

    優達機器學習成分分析(PCA)

    主成分是由資料中具有最大方差的方向決定的,因為可以最大程度的保留資訊量 我理解相當於降維,也就是將特徵通過降維的方式減少 方差最大化相當於將所有的距離最小化,這個方差和平時理解的方差不太一樣 PCA可以幫助你發現數據中的隱藏特徵,比如說得到總體上有兩個因素推動

    成分分析,聚類分析,因子分析的基本思想以及他們各自的優缺點

    一、基本思想主成分分析 就是將多項指標轉化為少數幾項綜合指標,用綜合指標來解釋多變數的方差- 協方差結構。綜合指標即為主成分。所得出的少數幾個主成分,要儘可能多地保留原始變數的資訊,且彼此不相關。因子分析 是研究如何以最少的資訊丟失,將眾多原始變數濃縮成少數幾個因子變數,以及

    python小白進階三成分分析(PCA)

         主成分分析(Principal Component Analysis,PCA)是最常用的一種降維方法,通常用於高維資料集的探索與視覺化,還可以用作資料壓縮和預處理等。矩陣的主成分就是其協方差矩陣對應的特徵向量,按照對應的特徵值大小進行排序,最大的特徵值就是第一主成

    機器學習降維演算法-成分分析PCA演算法兩種角度的推導

    若把高維空間的樣本點(可以想象是一個3維的)對映到一個超平面,怎樣的超平面可以認為是“好的”,可以想到這個超平面大概有這樣的性質: 最近重構行:樣本點到超平面的距離都足夠近;(樣本點變化儘可能小,丟失的資訊儘可能少) 最大可分性:樣本點在這個超平面上的投影儘可能分開.(樣