聚類演算法（相似度與效能度量）

阿新 • • 發佈：2021-01-19

技術標籤：聚類機器學習資料探勘 python 人工智慧

1.相似度度量的方法有距離計算、餘弦度計算和核函式計算

2.聚類演算法效能度量分為外部指標和內部指標

3.外部指標大多存在一個問題：需要知道真實資料的標記類資訊(類似監督學習)

4.內部指標主要有三個：輪廓係數、Caliniski-Harabaz指數和DB指數

5.輪廓係數處於[-1,1]的範圍內，-1表示錯誤的聚類，1表示高密度的聚類

6.Caliniski-Harabaz指數同一簇類的資料集儘可能密集，不同簇類的資料集儘可能遠離

7.DB指數的下限為0，DB指數越小，聚類效能越好

我們知道，聚類演算法的核心就是如何定義簇，通常採取相似性度量

，本文我們就對相似性以及和聚類結果好壞的評判依據做個介紹。話不多說，進入正題。

相似度計算方式

評價樣本間相似度常用的方法是距離計算、餘弦相似度計算和核函式計算，若樣本間的距離越小，則相似度越高；若樣本間的核函式值越大，則相似度越高。

在核函式一文中，我們對核函式做個深入的介紹，以及給出了常用核函式的python實現，這裡就不再贅述，直接介紹距離和餘弦相似度。

距離計算最常用方法的是閔可夫斯基距離（Minkowski distance）

p=1時，閔可夫斯基距離即曼哈頓距離（Manhattan distance）；

p=2時，閔可夫斯基距離即歐氏距離（Euclidean distance）

餘弦相似度就是向量夾角的餘弦值：

用python可以實現：

fromsklearn.metrics importpairwise_distances
fromsklearn.metrics.pairwise importpairwise_kernels

X = np.array([[2, 3]])
Y = np.array([[0, 1]])
pairwise_distances(X, Y, metric='euclidean')
pairwise_distances(X, Y, metric='manhattan')
pairwise_distances(X, Y, metric='cosine') #這裡計算出來的是（1-向量夾角餘弦值）


fromsklearn.metrics.pairwise importcosine_similarity #計算矩陣X兩兩樣本的餘弦相似度
X = pd.DataFrame([[1,1,0,1,0],[1,0,1,0,0],[0,1,0,0,1],[0,0,1,1,1]],columns=['a','b','c','d','e'])
print(cosine_similarity(X))

效能度量

聚類效能度量根據訓練資料是否包含標記資料分為兩類，一類是將聚類結果與標記資料進行比較，稱為外部指標；另一類是直接分析聚類結果，稱為內部指標。

外部指標大多存在一個問題，就是需要知道真實資料的標記類資訊，因此在實踐中很難得到應用（類似監督學習）。實踐過程中也常常用內部指標衡量，因此我們著重介紹內部指標。

外部指標

先介紹一點預備知識.

設樣本集 Sn={x1,x2,.....,xn},樣本集合的真實類別 U={u1，u2,...,ur},樣本集合的聚類結果 V={v1, v2,...,vc}

我們定義:

a：在U中為同一類且在V中也為同一類的資料點對數（TP)

b：在U中為同一類且在V中不是同一類的資料點對數（FN)

c：在U中不是同一類且在V中為同一類的資料點對數（FP)

d：在U中不是同一類且在V中也不是同一類的資料點對數（TN)

舉個例子：

若真實簇向量[0，0，0，1，1，1]，預測簇向量[0，0，1，1，2，2]，則a = 2，d = 1

1.RI（蘭德係數）

RI是衡量兩個簇類的相似度，假設樣本個數是n，定義：

RI係數的缺點是隨著聚類數的增加，隨機分配簇類向量的RI也逐漸增加，這是不符合理論的，隨機分配簇類標記向量的RI應為0

2.ARI（調整蘭德係數）

ARI解決了RI不能很好的描述隨機分配簇類標記向量的相似度問題，ARI的定義：

其中E表示期望，max表示取最大值。

3.Fowlkes-Mallows分數

Fowlkes-Mallows指數（FMI）是成對準確率和召回率的幾何平均值：

附一下sklearn包呼叫方式

fromsklearn importmetrics

labels_true =[0,0,0,1,1,1]
labels_pred =[0,0,1,1,2,2]

ARI = metrics.adjusted_rand_score(labels_true, labels_pred)
FM = metrics.fowlkes_mallows_score(labels_true,labels_pred)

除此之外，還有AMI（調整的互資訊指數），同質性，完整性和V-measure都是衡量外部指標的。

內部指標

1.輪廓係數

每個樣本有對應的輪廓係數，輪廓係數由兩個得分組成：

a：樣本與同一簇類中的其他樣本點的平均距離
b：樣本與距離最近簇類中所有樣本點的平均距離

每個樣本的輪廓係數定義為：

注：一組資料集的輪廓係數等於該資料集中每一個樣本輪廓係數的平均值。

該評價指標具備特點：

輪廓係數處於[-1,1]的範圍內，-1表示錯誤的聚類，1表示高密度的聚類，0附近表示重疊的聚類
當簇密度較高且分離較大時，聚類的輪廓係數亦越大
凸簇的輪廓係數比其他型別的簇高

2.Caliniski-Harabaz指數

評價聚類模型好的標準：同一簇類的資料集儘可能密集，不同簇類的資料集儘可能遠離。

定義簇類散度矩陣：

簇間散度矩陣：

其中Cq為簇類q的樣本集，cq為簇類q的中心，nq為簇類q的樣本數，c為所有資料集的中心。

根據協方差的相關概念，我們用簇類散度矩陣的跡表示同一簇類的密集程度，跡越小，同一簇類的資料集越密集（方差越小）；簇間散度矩陣的跡表示不同簇間的遠離程度，跡越大，不同簇間的遠離程度越大（方差越大）。

結合評價聚類模型的標準，定義Calinski-Harabaz指數：

其中N為資料集樣本數，k為簇類個數.

該評價指標具備特點：

當簇類密集且簇間分離較好時，Caliniski-Harabaz分數越高，聚類效能越好
計算速度快
凸簇的Caliniski-Harabaz指數比其他型別的簇高

3.DB指數（Davies-Bouldin Index）

我們用簇類C的平均距離表示該簇類的密集程度：

其中|C|表示簇類C的個數，dist(·,·)計算兩個樣本之間的距離。

不同簇類中心的距離表示不同簇類的遠離程度：

其中ui，uj分別為簇類Ci和Cj的中心。

結合聚類模型評價標準，定義DB指數：

DB指數的下限為0，DB指數越小，聚類效能越好

該評價指標具備特點：

DB指數的計算比輪廓係數簡單
DB指數的計算只需要知道資料集的數量和特徵
凸簇的DB指數比其他型別的簇高
簇類中心的距離度量限制在歐式空間

附一下python實現方式：

fromsklearn importmetrics

metrics.silhouette_score()
metrics.davies_bouldin_score()
metrics.calinski_harabasz_score()

參考資料：

https://mp.weixin.qq.com/s/cvr0kpI9kD18F09wULnmjA

聚類演算法（相似度與效能度量）

技術標籤：聚類機器學習資料探勘python人工智慧 1.相似度度量的方法有距離計算、餘弦度計算和核函式計算

基於劃分的聚類演算法（K-Means）與基於密度的聚類演算法（DBSCAN）的程式碼實現與分析

基於劃分的聚類演算法（K-Means）與基於密度的聚類演算法（DBSCAN）對比分析在開始閱讀前可以看一下有關這兩個演算法的描述和視覺化效果展示

matlab實現K-means聚類演算法（轉載）

https://blog.csdn.net/wys7541/article/details/82153844 K-means聚類演算法的一般步驟：初始化。輸入基因表達矩陣作為物件集X，輸入指定聚類類數N，並在X中隨機選取N個物件作為初始聚類中心。設定迭代中止條件，

python聚類演算法解決方案（rest介面/mpp資料庫/json資料/下載圖片及資料）

1. 場景描述一直做java，因專案原因，需要封裝一些經典的演算法到平臺上去，就一邊學習python，一邊網上尋找經典演算法程式碼，今天介紹下經典的K-means聚類演算法，演算法原理就不介紹了，只從程式碼層面進行介紹

k-means 聚類演算法與Python實現程式碼

k-means 聚類演算法思想先隨機選擇k個聚類中心，把集合裡的元素與最近的聚類中心聚為一類，得到一次聚類，再把每一個類的均值作為新的聚類中心重新聚類，迭代n次得到最終結果分步解析

機器學習Sklearn系列：（五）聚類演算法

本文詳細的介紹了幾種常見的聚類演算法。 K-means 原理首先隨機選擇k個初始點作為質心

譜聚類和Kmeans聚類演算法實現（python的sklearn）

Kmeans演算法大家都基本耳熟能詳了，而譜聚類演算法的過程如下構建樣本相似度矩陣S

Thinking in SQL系列之：資料探勘K均值聚類演算法與城市分級

引言：SQL做為一種程式語言，能夠滿足各類資料處理的需要，關鍵就在於演算法與思維方式。以SQL會友，希望結交更多的資料庫、資料分析領域的朋友。

KMeans聚類演算法思想與視覺化

1.聚類分析 1.0 概念聚類分析簡稱聚類（clustering），是一個把資料集劃分成子集的過程，每一個子集是一個簇（cluster），使得簇中的樣本彼此相似，但與其他簇中的樣本不相似。

使用 K-means 聚類演算法處理影象（Python）

K-means演算法屬於無監督分類，通過按照一定的方式度量樣本之間的相似度，通過迭代更新聚類中心，當聚類中心不再移動或移動差值小於閾值時，則就樣本分為不同的類別。

Python 餘弦相似度與皮爾遜相關係數計算例項

夾角餘弦(Cosine) 也可以叫餘弦相似度。幾何中夾角餘弦可用來衡量兩個向量方向的差異，機器學習中借用這一概念來衡量樣本向量之間的差異。

python基於K-means聚類演算法的影象分割

1 K-means演算法實際上，無論是從演算法思想，還是具體實現上，K-means演算法是一種很簡單的演算法。它屬於無監督分類，通過按照一定的方式度量樣本之間的相似度，通過迭代更新聚類中心，當聚類中心不再移動或移動

python實現mean-shift聚類演算法

本文例項為大家分享了python實現mean-shift聚類演算法的具體程式碼，供大家參考，具體內容如下

BM25演算法語義相似度計算

原理 BM25演算法，通常用來作搜尋相關性平分。一句話概況其主要思想：對Query進行語素解析，生成語素qi；然後，對於每個搜尋結果D，計算每個語素qi與D的相關性得分，最後，將qi相對於D的相關性得分進行加權求和，從

機器學習實戰---K均值聚類演算法

一：一般K均值聚類演算法實現（一）匯入資料 import numpy as np import matplotlib.pyplot as plt

kmeans改進版聚類演算法

#WSS未知異常預測第一種演算法實現——kmeans改進版聚類演算法import numpy as npfrom scipy.spatial.distance import cdistfrom sklearn.cluster import KMeansimport pandas as pdclass kmeans_optimiza

Python用K-means聚類演算法進行客戶分群的實現

一、背景 1.專案描述你擁有一個超市(Supermarket Mall)。通過會員卡，你用有一些關於你的客戶的基本資料，如客戶ID，年齡，性別，年收入和消費分數。

二分K-均值聚類演算法

#K-means聚類 from numpy import * import matplotlib.pyplot as plt plt.ion()#開啟互動模式，實時繪製

Kmeans均值聚類演算法原理以及Python如何實現

第一步.隨機生成質心由於這是一個無監督學習的演算法，因此我們首先在一個二維的座標軸下隨機給定一堆點，並隨即給定兩個質心，我們這個演算法的目的就是將這一堆點根據它們自身的座標特徵分為兩類，因此選取了兩個

DBSCAN聚類演算法

DBSCAN聚類演算法介紹 1. DBSCAN是什麼？1.1初見美人1.2演算法引數介紹1.3樣本點的分類

聚類演算法（相似度與效能度量）

相關推薦