機器學習6---聚類簡述

阿新 • • 發佈：2018-11-14

一、聚類介紹

聚類屬於“無監督學習”的一種，即訓練樣本的標籤資訊在訓練過程中是不被使用的，這也是區別於分類的重要特徵。

從數學角度而言，聚類是將樣本集 $D=\left \{ { x_{1},x_{2}...x_{m} } \right \}$ 劃分成k個不相交的“簇”，並且使用 $\lambda _{i}\epsilon \left \{ 1,2,...k \right \}$ 作為第i個簇的標記（cluster label）。

聚類演算法可以單獨作為一個劃分資料的過程，也可以作為大樣本集的前期處理過程。

二、效能度量

聚類演算法的效能度量主要為了評價這個聚類結果的好壞。

聚類效能度量分為兩類，第一類是外部指標：與某一個參考模型進行對比；第二類是內部指標：僅考察聚類結果。

1. 外部指標

對於資料集D，假定通過某一聚類演算法得到劃分為C={C1,C2....,Ck},參考模型給出的劃分為C*={C1*,C2*,...Ck*}， $\lambda$

為簇標記，將樣本兩兩配對，可以得到以下4個量：

a=|SS|,SS={ (xi,xj) | $\lambda_{i}=\lambda_{j},\lambda_{i}^{*}=\lambda_{j}^{*},i<j$ }，包含在C中隸屬於相同簇且C*中也隸屬於相同簇。

b=|SD|,SD={ (xi,xj) | $\lambda_{i}=\lambda_{j},\lambda_{i}^{*}\neq \lambda_{j}^{*},i<j$ }，包含在C中隸屬於相同簇但C*中不隸屬於相同簇。

c=|DS|,DS={ (xi,xj) | $\lambda_{i}\neq \lambda_{j},\lambda_{i}^{*}}{=} \lambda_{j}^{*},i<j$ }，包含在C中不隸屬於相同簇但C*中隸屬於相同簇。

d=|DD|,DD={ (xi,xj) | $\lambda_{i}\neq \lambda_{j},\lambda_{i}^{*}}\neq \lambda_{j}^{*},i<j$ }，包含在C中不隸屬於相同簇且C*中不隸屬於相同簇。

a,b,c,d滿足a+b+c+d=m(m-1)/2，

根據以上4個量可以有以下三個外部指標，值越大說明兩個劃分約為相似：

Jaccard係數（JC）

$JC=\frac{a}{a+b+c}$

FM係數

$FMI=\sqrt{\frac{a}{a+b}.\frac{a}{a+c}}$

Rand係數（RI）

$RI=\frac{2(a+b)}{m(m-1)}$

2. 內部指標

直接考察聚類結果，即計算4個量：簇內樣本的平均距離 $avg(C_{j}）$ ，簇內樣本的最遠距離 $diam(C)$ ，兩個簇之間的最近距離 $d_{min}(C_i,C_j)$ ，兩個簇之間的中心距離 $d_{cen}(C_i,C_j)$ 。

從而得到以下兩個常用指標：

DB指標（DBI）：

$DBI=\frac{1}{k}\sum _{i=1}^{k}\underset{j\neq i}{max} (\frac{avg(C_{i})+avg(C_{j})}{d_{cen}(\mu _{i},\mu _{j})})$ ，值越小，說明簇的分佈越為分離。

Dunn指標（DI）：

$DI=\underset{1\leq i\leq k}{min}\left \{ \underset{j\neq i}{min} (\frac{d_{min}(C_i,C_j)}{max_{1\leq l\leq k } diam(C_l)})\right \}$ ，值越大越好。

三、距離簡述

對於一個函式，距離應該滿足三個性質：非負性、同一性、對稱性、直遞性。

距離度量應該分為兩類：有序屬性的距離度量和無須屬性的距離度量。

1. 有序屬性的距離度量：有序屬性是指屬性有明確的“序”關係，例如{1，2，3}，即1<2<3。此時的距離度量常採用閔科夫斯基距離，

$dist_{mk}(x_{i},x_j)=(\sum^{n}_{u=1}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}$

當p=2時，是歐式距離；當p=1時，是曼哈頓距離。

2. 無序屬性的距離度量：無序屬性是指無明確“序關係”的屬性，例如{麵包、牛奶、香蕉}，此時沒辦法明確排序。常採用VDM度量距離。令 $m_{u,a}$ 為屬性u上取值為a的樣本數， $m_{u,a,i}$ 表示在第i個樣本簇中u的取值為a的樣本個數，則屬性u上兩個離散值a,b之間的VDM距離為：

$VDM_{p}(a,b)= \sum_{i=1}^k |\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|^p$

混合屬性時可以使用閔科夫斯基距離和曼哈頓距離的結合，多重屬性時可以考慮“加權距離”。

機器學習6---聚類簡述

一、聚類介紹

二、效能度量

三、距離簡述

機器學習6---聚類簡述

機器學習-KMeans聚類 K值以及初始類簇中心點的選取

機器學習演算法--聚類

[五]機器學習之聚類

機器學習---1.聚類演算法綱領總結

機器學習-*-DBSCAN聚類及程式碼實現

機器學習-*-MeanShift聚類演算法及程式碼實現

吳恩達機器學習之聚類演算法的引數選擇以及優化

機器學習之聚類（二）

使用pyspark進行機器學習（聚類問題）

機器學習總結——聚類

機器學習實戰--聚類

機器學習之聚類演算法（層次聚類）

【機器學習】聚類演算法：層次聚類

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

機器學習之聚類分析---K-means（一）

【機器學習】聚類演算法：層次聚類、K-means聚類

Python機器學習——DBSCAN聚類

機器學習：聚類-閔科夫斯基距離和無序屬性的VDM距離計算

【機器學習】聚類

機器學習6---聚類簡述

一、 聚類介紹

二、 效能度量

三、距離簡述

相關推薦

一、聚類介紹

二、效能度量