聚類演算法評價指標

阿新 • • 發佈：2019-01-03

一、Not Given Label:

1、Compactness(緊密性)(CP)

CP計算每一個類各點到聚類中心的平均距離

CP越低意味著類內聚類距離越近

缺點：沒有考慮類間效果

2、Separation(間隔性)(SP)

SP計算各聚類中心兩兩之間平均距離

SP越高意味類間聚類距離越遠

缺點：沒有考慮類內效果

3、Davies-Bouldin Index(戴維森堡丁指數)(分類適確性指標)(DB)(DBI)

DB計算任意兩類別的類內距離平均距離(CP)之和除以兩聚類中心距離求最大值

DB越小意味著類內距離越小同時類間距離越大

缺點：因使用歐式距離所以對於環狀分佈聚類評測很差

4、Dunn Validity Index (鄧恩指數)(DVI)

DVI計算任意兩個簇元素的最短距離(類間)除以任意簇中的最大距離(類內)

DVI越大意味著類間距離越大同時類內距離越小

缺點：對離散點的聚類測評很高、對環狀分佈測評效果差

二、Given Label:

1、Cluster Accuracy (準確性)(CA)

CA計算聚類正確的百分比

CA越大證明聚類效果越好

2、Rand index(蘭德指數)(RI) 、Adjusted Rand index(調整蘭德指數)(ARI)

其中C表示實際類別資訊，K表示聚類結果，a表示在C與K中都是同類別的元素對數，b表示在C與K中都是不同類別的元素對數

其中表示資料集中可以組成的對數，RI取值範圍為[0,1]，值越大意味著聚類結果與真實情況越吻合。

RI越大表示聚類效果準確性越高同時每個類內的純度越高

為了實現“在聚類結果隨機產生的情況下，指標應該接近零”，調整蘭德係數（Adjusted rand index）被提出，它具有更高的區分度：

ARI取值範圍為[−1,1]，值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講，ARI衡量的是兩個資料分佈的吻合程度。

3、Normalized Mutual Information (標準互資訊)(NMI)、Mutual Information(互資訊)(MI)

標準化互聚類資訊都是用熵做分母將MI值調整到0與1之間，一個比較多見的實現是下面所示：

參考文獻

聚類演算法評價指標

一、Not Given Label: 1、Compactness(緊密性)(CP) CP計算每一個類各點到聚類中心的平均距離 CP越低意味著類內聚類距離越近

聚類外部評價指標（F-Measure、Entropy、Purity）及matlab實現

本文參考： 1.https://www.cnblogs.com/zhangduo/p/4504879.html 2.https://blog.csdn.net/vernice/article/details/46467449?utm_source=blogxgwz8 一、簡介介紹聚類中的外

聚類的評價指標（無監督學習）

詳細理論說明，可以檢視其他部落格： # coding:utf-8 from sklearn import metrics """ 聚類效能評估 """ """ 1、Adjusted Rand index (ARI) 優點：

聚類演算法之K-means演算法與聚類演算法衡量指標

聚類就是按照某個特定標準(如距離準則)把一個數據集分割成不同的類或簇，使得同一個簇內的資料物件的相似性儘可能大，同時不在同一個簇中的資料物件的差異性也儘可能地大。即聚類後同一類的資料儘可能聚集到一起

ARI聚類效果評價指標

聚類效果有一個評價指標，ARI（Adjusted Rand Index）。這個指標不考慮你使用的聚類方法，把你的方法當做一個黑箱，只注重結果。可以說，是一個十分“功利”的指標。 1.Rand index 在講ARI之前呢，先講述一下RI，也就是rand index，從兩者的

聚類演算法的衡量指標

最近在做聚類相關的實驗，但是具體聚類效果好不好，還需要一下指標進行評價，下面主要介紹聚類演算法的評價指標。 1.聚類演算法衡量指標-1 （1）均一性：一個聚類簇中只包含一個類別的樣本，則滿足均一性。可以認為是分類演算法衡量的精確率（每個聚類簇中正確分類的樣本數佔該聚類簇中

【神經網路】自編碼聚類演算法--DEC (Deep Embedded Clustering)

1.演算法描述最近在做AutoEncoder的一些探索，看到2016年的一篇論文，雖然不是最新的，但是思路和方法值得學習。論文原文連結 http://proceedings.mlr.press/v48/xieb16.pdf，論文有感於t-SNE演算法的t-

聚類演算法之DBSCAN演算法之二：高維資料剪枝應用NQ-DBSCAN

一、經典DBSCAN的不足 1.由於“維度災難”問題，應用高維資料效果不佳 2.執行時間在尋找每個點的最近鄰和密度計算，複雜度是O(n2)。當d>=3時，由於BCP等數學問題出現，時間複雜度會急劇上升到Ω（n的四分之三次方）。二、DBSCAN在高維資料的改進目前的研究有

聚類演算法之DBSCAN演算法之一：經典DBSCAN

DBSCAN是基於密度空間的聚類演算法，與KMeans演算法不同，它不需要確定聚類的數量，而是基於資料推測聚類的數目，它能夠針對任意形狀產生聚類。 1.epsilon-neighborhood epsoiln-neighborhood(簡稱e-nbhd）可理解為密度空間，表示半徑為e

機器學習——K-means演算法（聚類演算法）

聚類在說K-means聚類演算法之前必須要先理解聚類和分類的區別。分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱裡有垃圾郵件分類器，一開始的時候可能什麼都不過濾，在日常使用過程中，我人工對於每一封郵件點選“垃圾”或“不是垃圾”，過一段時間，Gmail就體現出

聚類演算法（1）

一聚類演算法簡介 1.聚類和分類的區別聚類 - 利用演算法將相似或者相近的樣本聚成一簇，這些樣本都是無標籤的，是一種無監督學習演算法。分類 - 首先需要從有標籤樣本學習出打標籤邏輯，再利用學習出的邏輯對無標籤樣本進行分類，是一種有監督學習演算法。 2.聚類的使用聚類演

機器學習筆記之（7）——聚類演算法

對於監督學習，訓練資料都是事先已知預測結果的，即訓練資料中已提供了資料的類標。無監督學習則是在事先不知道正確結果（即無類標資訊或預期輸出值）的情況下，發現數據本身所蘊含的結構等資訊。無監督學習通過對無標記訓練樣本的學習來尋找這些資料的內在性質。聚類的目標是發現數據中自然形成的分組，使得每

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記關鍵字：k-均值、kMeans、聚類、非監督學習作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Pet

聚類演算法-K-means

K-means演算法****** 步驟： 1.從訓練資料中隨機選取k個初始點，作為k個初始簇的中心點 2.計算每個點到中心點的歐式距離，將其歸併到距離最近的簇中，直至所有點劃分完成 3.計算每個簇新的中心點 4.如果相對於原來中心點沒有變化或者變化數值小於給定閾值，則演算

吳恩達老師機器學習筆記K-means聚類演算法（二）

運用K-means聚類演算法進行影象壓縮趁熱打鐵，修改之前的演算法來做第二個練習—影象壓縮原始圖片如下：程式碼如下： X =imread('bird.png'); % 讀取圖片 X =im2double(X); % unit8轉成double型別 [m,n,z]=size

吳恩達老師機器學習筆記K-means聚類演算法（一）

今天接著學習聚類演算法以後堅決要八點之前起床學習！不要浪費每一個早晨。 K-means聚類演算法聚類過程如下：原理基本就是先從樣本中隨機選擇聚類中心，計算樣本到聚類中心的距離，選擇樣本最近的中心作為該樣本的類別。最後某一類樣本的座標平均值作為新聚類中心的座標，如此往復。原

機器學習演算法——評價指標彙總

準確率，精確率，召回率和F1 準確率(Accuracy), 精確率(Precision), 召回率(Recall)和F1-Measure ROC-AUC ROC曲線需要提前說明的是，我們這裡只討論二值分類器。對於分類器，或者說分類演算法，評價指標主要有precision，recal

DBSCAN聚類演算法難嗎？我們來看看吧~

往期經典回顧從零開始學Python【29】--K均值聚類（實戰部分）從零開始學Python【28】--K均值聚類（理論部分）從零開始學Python【27】--Logistic迴歸（實戰部分）從零開始學Python【26】--Logistic迴歸（理論部分）從零開始學Py

聚類演算法(4)--Hierarchical clustering層次聚類

目錄一、層次聚類 1、層次聚類的原理及分類 2、層次聚類的流程 3、層次聚類的優缺點二、python實現 1、sklearn實現 2、scipy實現樹狀圖分類判斷一、層次聚類 1、層次聚類的原理及分類 1）層次法（Hierar

資料探勘聚類演算法

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

聚類演算法評價指標

一、Not Given Label:

1、Compactness(緊密性)(CP)

2、Separation(間隔性)(SP)

3、Davies-Bouldin Index(戴維森堡丁指數)(分類適確性指標)(DB)(DBI)

4、Dunn Validity Index (鄧恩指數)(DVI)

二、Given Label:

1、Cluster Accuracy (準確性)(CA)

2、Rand index(蘭德指數)(RI) 、Adjusted Rand index(調整蘭德指數)(ARI)

3、Normalized Mutual Information (標準互資訊)(NMI)、Mutual Information(互資訊)(MI)

參考文獻

相關推薦