scikit-learn之聚類效能度量

1、調整蘭德係數

數學公式

Rand index（蘭德係數）： $R I = \frac{a + b}{C_{2}^{n_{s a m p l e s}}}$
1、a：應該在一類，最後聚到一類的數量；
2、b：不應該在一類，最後聚類結果也沒把他們聚在一起的數量；
3、數量是指配對，在資料集中任意選兩個樣本點就是一個配對；
4、RI 有一個缺點，就是懲罰力度不夠，換句話說，大家普遍得分比較高，沒什麼區分度，於是有了 ARI；

Adjusted Rand index（調整蘭德係數）： $A R I = \frac{R I - E [R I]]]}{m a x (R I) - E [R I]]}$

優缺點

優點：
1、對於隨機的標籤分配，ARI 趨近於 0（而 RI 就不能保證獲得接近 0 的值，特別是如果簇的數量與取樣數量具有相同的數量級）；
2、ARI 的取值範圍是 [-1,1]，負值代表兩列聚類標籤相對獨立，正值代表兩列聚類標籤很相似，1 代表兩列聚類標籤完全相同；
3、對於簇的結構沒有作出任何假設，例如，可以用於比較 K-Means（假定 isotropic blob shapes）與譜聚類（可以找到具有 “folded” shapes 的聚類）的結果；
缺點：
1、由於需要正確聚類標籤，在實踐中幾乎不可用，但是可以用來在無監督的環境下，比較各種聚類演算法結果的一致性（adjusted_rand_score 是對稱的）；

2、基於互資訊的度量

數學公式

假設兩列標籤分配（資料集中有 N 個物件），U 和 V；

mutual_info_score： $M I (U, V) = \sum_{i = 1}^{| U |} \sum_{j = 1}^{| V |} P (i, j) l o g (\frac{P (i, j)}{P (i) P^{^{'}} (j)})$

$P (i) = \frac{| U_{i} |}{N}$ 是從 U 中隨機選取的物件屬於類 $U_{i}$ 的概率;

$P^{^{'}} (j) = \frac{| V_{j} |}{N}$ 是從 V 中隨機選取的物件屬於類 $V_{i}$ 的概率;

$P (i, j) = \frac{| U_{i} ⋂ V_{j} |}{N}$

是隨機選擇的物件屬於兩個類

U_{i}

和

V_{j}

的概率；

normalized_mutual_info_score： $N M I (U, V) = \frac{M I (U, V)}{\sqrt{H (U) H (V)}}$

U 的熵： $H (U) = - \sum_{i = 1}^{| U |} P (i) l o g (P (i))$

V 的熵： $H (V) = - \sum_{i = 1}^{| V |} P^{^{'}} (j) l o g (P^{^{'}} (j))$

adjusted_mutual_info_score： $A M I = \frac{M I - E [M I]]}{m a x (H (U), H (V)) - E [M I]]}$

scikit-learn之聚類效能度量

1、調整蘭德係數

數學公式

優缺點

2、基於互資訊的度量

數學公式

scikit-learn之聚類效能度量

十一、用scikit-learn做聚類分析

Scikit-learn：聚類clustering

無監督學習之聚類2——DBSCAN

[五]機器學習之聚類

吳恩達機器學習之聚類演算法的引數選擇以及優化

python資料分析與挖掘之聚類kmeans演算法

Scikit-learn 之預處理模組

從零開始搭建django前後端分離專案系列六（實戰之聚類分析）

機器學習之聚類（二）

《機器學習實戰》學習筆記（九）之聚類

資料探勘演算法之聚類分析（二）canopy演算法

使用Orange進行資料探勘之聚類分析(2)------K-means

機器學習之聚類演算法（層次聚類）

影象分割之聚類演算法

Mahout機器學習平臺之聚類演算法詳細剖析（含例項分析）

評價聚類效能指標

聚類：對聚類效能的評價

論文筆記之聚類演算法Clustering by propagating probabilities between data points

機器學習之聚類分析---K-means（一）