無監督式學習-鳶尾花資料降維and聚類

阿新 • • 發佈：2019-02-05

一. 使用PCA(主成分分析)進行降維實現資料視覺化

降維的任務是要找到一個可以保留資料本質特徵的低維矩陣來表示高維資料, 通常用於輔助資料視覺化的工作.

下面我們使用主成分分析(principal component analysis, PCA)方法, 這是一種快速線性降維技術. 模型返回兩個主成分, 用二維資料表示鳶尾花的4維資料.

1. 首先匯入資料

import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
print(iris) # 輸出檢視資料

2. 劃分資料, 特徵和標籤

X_iris = iris.drop( 
'species', axis=1)
y_iris = iris['species']

3. 選擇PCA模型, 進行擬合

from sklearn.decomposition import PCA
model = PCA(n_components=2) # 設定超引數, 初始化模型
model.fit(X_iris) # 進行擬合
X_2D = model.transform(X_iris) # 將資料轉化為二維

4. 圖形視覺化

思路是將二維資料插入到DataFrame中, 然後用seaborn的lmplot方法繪製圖形.

iris['PCA1'] = X_2D[:, 0]
iris['PCA2' 
] = X_2D[:, 1]
sns.lmplot("PCA1", "PCA2", hue='species', data=iris, fit_reg=False)

結果展示:

可以看到PCA降維成功地將鳶尾花的種類在視覺上進行劃分.
原先的資料集是4維, 難以進行視覺化, 降維後在2維上實現視覺化.
在這裡插入圖片描述

二. 使用高斯混合模型對鳶尾花資料進行聚類

1. 首先匯入資料

import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
print(iris) # 輸出檢視資料

2. 劃分資料, 特徵和標籤

X_iris = iris. 
drop('species', axis=1)
y_iris = iris['species']

3. 使用主成分分析進行降維(為了視覺化為2維資料)

from sklearn.decomposition import PCA
model = PCA(n_components=2) # 設定超引數, 初始化模型
model.fit(X_iris) # 進行擬合
X_2D = model.transform(X_iris) # 將資料轉化為二維
iris['PCA1'] = X_2D[:, 0]
iris['PCA2'] = X_2D[:, 1]

4. 選擇高斯混合模型

from sklearn.mixture import GMM
model = GMM(n_components=3, covariance_type='full') # 設定超引數
model.fit(X_iris) # 擬合數據
y_gmm = model.predict(X_iris) # 確定簇標籤

5. 資料視覺化

iris['cluster'] = y_gmm
sns.lmplot('PCA1', 'PCA2', data=iris, hue='species', col='cluster', fit_reg=False)

如圖, 資料根據簇的不同被成三類.
在這裡插入圖片描述

可以看到圖一和圖二的分類基本正確, 圖三有少數的點是屬於圖二.

無監督式學習-鳶尾花資料降維and聚類

一. 使用PCA(主成分分析)進行降維實現資料視覺化降維的任務是要找到一個可以保留資料本質特徵的低維矩陣來表示高維資料, 通常用於輔助資料視覺化的工作. 下面我們使用主成分分析(principal component analysis, PCA)方法, 這是一

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 主成分分析（Principal Component Analysis, PCA)可以

機器學習：資料降維

1、主成分分析（Principle Component Analysis，PCA）PCA原理主成分分析是最常用的一種降維方法，為了便於維度變換，作出如下假設：1）樣本資料是維的。2）原始座標系為：由標準

機器學習四大資料降維方法詳解

引言：機器學習領域中所謂的降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習一個對映函式 f : x->y，其中x是原始資料點的表達，目前最多使用向量表達形式。 y是資料點對映後的低維向量表達，通常y的維度小於x的維度（當然提高維度也是可以的）。f可能是顯

【機器學習】資料降維—主成分分析（PCA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。主成分分析（PCA）特徵抽取通常用於提高計算效率，降低維度災難。主成分分析（Principe component analysis，PCA）：是一種廣泛應用於不同領域的無監督

【機器學習】資料降維—線性判別分析（LDA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。線性判別分析（Linear Discriminant Analysis,LDA）是一種可作為特徵抽取的技術 LDA可以提

Unsupervised Learning: Linear Dimension Reduction---無監督學習：線性降維

避免 other 介紹 near -s func 例子 get 特征選擇一 Unsupervised Learning 把Unsupervised Learning分為兩大類：化繁為簡：有很多種input，進行抽象化處理，只有input沒有output 無中生

[機器學習入門] 李巨集毅機器學習筆記-14 （Unsupervised Learning: Linear Dimension Reduction；無監督學習：線性降維）

[機器學習入門] 李巨集毅機器學習筆記-14 （Unsupervised Learning: Linear Dimension Reduction；線性降維） PDF VI

機器學習——資料降維

特徵選擇選擇特徵就是單純地從提取到的所有特徵種選擇部分特徵作為訓練集特徵，特徵在選擇前和選擇後可以改變值，也不改變值，但是選擇後的特徵維度肯定比選擇前小，畢竟我們只選擇了其中的一部分特徵。主要方法（三大武器）：Filter（過濾器）：VarianceThreshold

GAN應用之資料生成，無監督深度學習新方法（3）

3.1 從GAN到Conditional GAN GAN的生成式模型可以擬合真實分佈，所以它可以用於偽造資料。DCGAN是第一個用全卷積網路做資料生成的，下面是它的基本結構和生成的資料。輸入100維的噪聲，輸出64*64的影象，從mnist的訓練結果來看，

機器學習-3.資料特徵預處理與資料降維

特徵預處理定義：通過特定的統計方法（數學方法）將資料轉換成演算法要求的資料。處理方法數值型資料：標準縮放（1.歸一化，2.標準化）；缺失值。類別型資料：one-hot編碼。時間型別：時間的切分。預處理API：sklear

機器學習實戰（Machine Learning in Action）學習筆記————10.奇異值分解(SVD)原理、基於協同過濾的推薦引擎、資料降維

關鍵字：SVD、奇異值分解、降維、基於協同過濾的推薦引擎作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Peter Harrington）原始碼下載地址：https://www.manning.com/books/machine-le

[Keras深度學習淺嘗]實戰五·使用DNN自編碼器實現聚類操作資料降維

[Keras深度學習淺嘗]實戰五·使用DNN自編碼器實現聚類操作資料降維程式碼部分 # TensorFlow and tf.keras import tensorflow as tf from tensorflow import keras # Helper libraries

非監督式學習：聚類和降為

聚類主要的三種模型：K-means，混合高斯以及譜聚類 K-means是非常簡單和直觀的聚類，他用歐式距離來度量資料間的相似度。類似畫圈圈的方法來完成聚類運算。它隱含的假設是資料的各維度是均質的，應用範圍比較窄。為了解決引用範圍比較窄的問題，我們

python大戰機器學習——資料降維

注：因為公式敲起來太麻煩，因此本文中的公式沒有呈現出來，想要知道具體的計算公式，請參考原書中內容　　　　降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中 1、主成分分析（PCA）　　將n維樣本X通過投影矩陣W，轉換為K維矩陣Z 　　輸入：樣本集D，低維空間d 　　輸出：投影矩陣W

[吳恩達機器學習筆記]14降維1-2降維的應用資料壓縮與資料視覺化

14.降維覺得有用的話,歡迎一起討論相互學習~Follow Me 14.1動機一：資料壓縮降維也是一種無監督學習的方法，降維並不需要使用資料的標籤。降維的其中一個目的是資料壓

機器學習（五）PCA資料降維

PCA資料降維作者：hjimce 一、PCA相關理論 PCA演算法又稱主成分分析，是一種分析、簡化資料集的技術。主成分分析經常用於減少資料集的維數，同時保持資料集中的對方差貢獻最大的特徵。PCA的

機器學習筆記（二）——廣泛應用於資料降維的PCA演算法實戰

最近在學習的過程當中，經常遇到PCA降維，於是就學習了PCA降維的原理，並用網上下載的iris.txt資料集進行PCA降維的實踐。為了方便以後翻閱，特此記錄下來。本文首先將介紹PCA降維的原理，然後進入實戰，編寫程式對iris.資料集進行降維。一、為什麼要進行資料降維？

機器學習-python編寫主成分分析(PCA)資料降維

程式碼及資料集下載：PCA 在機器學習之前通常需要對資料進行降維處理，有以下原因：使得資料集更易使用降低很多演算法的計算開銷去除噪聲使得結果易懂這裡講的降維方法為主成分分析法（PCA），將資料從原來的座標系轉換到新的座標系，新的座標系的選擇是

監督式學習 -- 分類決策樹（一）

cte 求解分支基本概念 tracking 它的解決 mat 這就是決策樹（decision tree）是一種基本的分類與回歸方法。其表示的樹型結構，能夠覺得是if-else規則的集合。基本的長處是分類可讀性好，速度快。一般會有三個步驟：特征選擇、決策樹的生成

無監督式學習-鳶尾花資料降維and聚類

一. 使用PCA(主成分分析)進行降維實現資料視覺化

1. 首先匯入資料

2. 劃分資料, 特徵和標籤

3. 選擇PCA模型, 進行擬合

4. 圖形視覺化

結果展示:

二. 使用高斯混合模型對鳶尾花資料進行聚類

1. 首先匯入資料

2. 劃分資料, 特徵和標籤

3. 使用主成分分析進行降維(為了視覺化為2維資料)

4. 選擇高斯混合模型

5. 資料視覺化

相關推薦