1. 程式人生 > >PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係

PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係

PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係

 最近在研究譜聚類時,遷移到主成分分析(PCA),發現兩者有著驚人的相似之處,同時還牽扯到Kmeans、SVD,甚至LDA也有相通的地方(雖然LDA是有監督學習),因此在這裡寫一篇總結,描述一下以上各個模型之間的共通性,有助於加深對這一類無監督學習演算法的理解。


PCA與SVD/EVD的關係

  首先,從SVD入手:

X ( d × N ) = U Σ V T
X X T = U Λ U T

XXTU=Λ" role="presentation"> U T X X T U = Λ

  然後,這是PCA的目標:

min W W T X X T W s . t . W T W = I

  因此PCA的實現,既可以對協方差矩陣 X X ( d × d ) T 做特徵值分解,也可以直接對 X 做奇異值分解。


Kmeans與SVD/EVD的關係

  首先從SVD出發:

X ( d × N ) = U Σ V T X T X = V Λ V T
V T X T X V = Λ

  然後看Kmeans。Kmeans對誤差的分佈有要求,即要求誤差服從標準正態分佈,因此,Kmeans在處理非標準正態分佈的資料集時,聚類效果會比較差。Kmeans聚類的每一次迭代,是根據現有的 k 個類中心,樣本根據自身與中心的距離判斷類歸屬,然後計算出每一個類的中心進入下一次迭代。由於Kmeans的核心是基於樣本與類中心的歐式距離,伊霓裳可以將Kmeans聚類的目標理解為:劃分 K 個類 C = C 1 , C 2 , , C K ,使得各類樣本到各自類中心的歐式距離之和最小。

min C k i C k | | x i μ k | | 2 2 = min C k i C k ( x i T x i 2 x i T μ k + μ k T μ k ) = min C ( i x i T x i k 1 n k i , j C k x i T x j ) = min C ( T r ( X T X ) T r ( H X T X H ) )
max H T r ( H T X T X H ) s . t . H T H = I K × K

相關推薦

PCALDAKmeansSVD/EVD之間關係

PCA、LDA、Kmeans、SVD/EVD、譜聚類之間的關係  最近在研究譜聚類時,遷移到主成分分析(PCA),發現兩者有著驚人的相似之處,同時還牽扯到Kmeans、SVD,甚至LDA也有相通的地方(雖然LDA是有監督學習),因此在這裡寫一篇總結,描述一下以上各個模型之間的共通性,有助

PCASVD

PCA、SVD與譜聚類 PCA 所謂降維,就是要把n維向量X(i)投射到k維的空間(k<n),在這個k維空間裡面,樣本點的投影長度儘可能大,這樣就能保證這個新的空間保留了原來n維空間裡面儘可能多的variance。下面是公式描述: if x(i) is

機器學習sklearn19.0演算法——層次(AGNES/DIANA)密度(DBSCAN/MDCA)

一、層次聚類 BIRCH演算法詳細介紹以及sklearn中的應用如下面部落格連結: http://www.cnblogs.com/pinard/p/6179132.html http://www.cnblogs.com/pinard/p/62

《機器學習實戰》二分-kMeans演算法(二分K均值

首先二分-K均值是為了解決k-均值的使用者自定義輸入簇值k所延伸出來的自己判斷k數目,其基本思路是: 為了得到k個簇,將所有點的集合分裂成兩個簇,從這些簇中選取一個繼續分裂,如此下去,直到產生k個簇。 虛擬碼: 初始化簇表,使之包含由所有的點組成的簇。 repeat   &n

瞭解 kmeans演算法和演算法

譜聚類演算法 不過真正要直觀地理解譜聚類,其實應該從物理的簡正模振動的角度來理解。你可以認為每兩個點之間都有一個彈簧連著,把兩個點之間的相似度理解為它們的彈簧係數,每個特徵向量就是這個系統的運動

PCASVD和協方差矩陣的關係

1、PCA : Principle Component Analysis 主成分分析 2、SVD : Singular Value Decomposition 奇異值分解 3、PCA在很多場合都有涉及,在資料紛繁難以選取時,一般都會採用PCA降維處理,值選取幾個主要的方向資料來進行分析。 比如,可將影象

降維的四種方法:PCALDALLELaplacian Eigenmaps

知識點:降維的四種方法,PCA、LDA、LLE、Laplacian Eigenmaps 注意區分LDA:  資訊檢索中也有LDA(Latent Dirichlet allocation),主題模型,,表示文件的生成過程:先根據超參選擇主題,在根據主題的分佈取樣得到單詞,重

四大機器學習降維演算法:PCALDALLELaplacian Eigenmaps

引言 機器學習領域中所謂的降維就是指採用某種對映方法,將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習一個對映函式 f : x->y,其中x是原始資料點的表達,目前最多使用向量表達形式。 y是資料點對映後的低維向量表達,通常y的維度小於x的維度(當然提

PCALDA的參考學習理解混亂清晰的過程

部分資料來自他人部落格,基礎上進行理解 LDA參考 http://blog.csdn.net/warmyellow/article/details/5454943 LDA演算法入門 一. LDA演算法概述: 線性判別式分析(Linear Discriminant

特徵選擇和特徵提取區別 PCA VS LDA

1.特徵提取 V.S 特徵選擇 特徵提取和特徵選擇是DimensionalityReduction(降維)的兩種方法,針對於the curse of dimensionality(維災難),都可以達到降維的目的。但是這兩個有所不同。 特徵提取(Feature

PCA(主成分分析)降維的概念作用及演算法實現

1、PCA降維的概念 Principal Component Analysis(PCA):主成分分析法,是最常用的線性降維方法。它的目標是通過某種線性投影,將高維的資料對映到低維的空間中表示,即把原先的n個特徵用數目更少的m個特徵取代,新特徵是舊特徵的線性組合。並期望在所投影的維度上資料的方

機器學習實戰(Machine Learning in Action)學習筆記————10.奇異值分解(SVD)原理基於協同過濾的推薦引擎資料降維

關鍵字:SVD、奇異值分解、降維、基於協同過濾的推薦引擎作者:米倉山下時間:2018-11-3機器學習實戰(Machine Learning in Action,@author: Peter Harrington)原始碼下載地址:https://www.manning.com/books/machine-le

機器學習實戰(Machine Learning in Action)學習筆記————10.奇異值分解(SVD)原理基於協同過濾的推薦引擎數據降維

www 實現 由於 就是 計算 學習筆記 圖片 blob 標示 關鍵字:SVD、奇異值分解、降維、基於協同過濾的推薦引擎作者:米倉山下時間:2018-11-3機器學習實戰(Machine Learning in Action,@author: Peter Harringto

NLP︱LDA主題模型的應用難題使用心得及從多元統計角度剖析

將LDA跟多元統計分析結合起來看,那麼LDA中的主題就像詞主成分,其把主成分-樣本之間的關係說清楚了。多元學的時候聚類分為Q型聚類、R型聚類以及主成分分析。R型聚類、主成分分析針對變數,Q型聚類針對樣本

機器學習(十六)無監督學習KMeans

無監督學習、聚類 聚類是在樣本沒有標註的情況下,對樣本進行特徵提取並分類,屬於無監督學習的內容。有監督學習和無監督學習的區別就是需要分析處理的資料樣本是否事先已經標註。如下圖,左邊是有監督,右邊是無監督: 應用場景也有所不同。 無

機器學習總結(十):常用演算法(Kmeans密度層次)及常見問題

任務:將資料集中的樣本劃分成若干個通常不相交的子集。 效能度量:類內相似度高,類間相似度低。兩大類:1.有參考標籤,外部指標;2.無參照,內部指標。 距離計算:非負性,同一性(與自身距離為0),對稱性

降維——PCA, 3d視覺化以及R

匯入資料 資料使用的是iris資料包: data(iris) iris$Species <- factor(iris$Species, levels = c("Versicolor", "virginica", "setosa")) 可以使用head(iri

降維演算法(LASSOPCA分析小波分析線性判別分析拉普拉斯特徵對映區域性線性嵌入)

1、LASSO LASSO全稱least absolute shrinkage and selection operator,本身是一種迴歸方法。與常規迴歸方法不同的是,LASSO可以對通過引數縮減對引數進行選擇,從而達到降維的目的。說到LASSO,就不得不說

【Python資料探勘課程】三.Kmeans程式碼實現作業及優化

        這篇文章直接給出上次關於Kmeans聚類的籃球遠動員資料分析案例,同時介紹這次作業同學們完成的圖例,最後介紹Matplotlib包繪圖的優化知識。        希望這篇文章對你有所幫助,尤其是剛剛接觸資料探勘以及大資料的同學,同時準備嘗試以案例為主的方式進行

KmeansKmeans++Birch和KNN四種演算法對二維座標點的分析對比實驗

0 寫在前面(資料集和原始碼)本文章涉及到的資料集合所有程式碼均上傳在此處:https://download.csdn.net/download/zhouzhuo_csuft/10494273;點選此處直接開啟連結;一共有四個程式碼檔案,分別是Kmeans、Kmeans++、