從零開始-Machine Learning學習筆記(26)-聚類
阿新 • • 發佈:2018-11-23
文章目錄
0. 前言
原本計計劃用兩個早晨看完這一章節的,沒想到竟然很順利的只用了一早上就看完了。所以在此也跟各位同道中的小夥伴們分享一下,千萬不要覺得這些知識枯燥,沒有現成的演算法直接使用起來那麼爽,那麼有成就感,但是掌握這些演算法的原理卻是我們在今後使用這些演算法的根基,根基不穩,終究也就只是個調包怪罷了。認真看進去的話,收穫非常大,且觸類旁通,對於你在別的領域,或許也會有些許的啟迪。
1. 聚類的效能度量和距離計算
聚類任務是“無監督學習”中研究最多、應用最廣的。聚類試圖將資料集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為一個"簇"(cluster)。
1.1 效能度量
聚類效能度量大致有兩類. 一類是將聚類結果與某個"參考模型" (reference model)進行比較,稱為"外部指標" (external i醜dex); 另一類是直接考察聚類結果而不利用任何參考模型,稱為"內部指標" (internal
index)。
其中:
a
: 表示在聚類模型和參考模型中都屬於同一簇的樣本對
b
: 表示在聚類模型中屬於同一簇,但在參考模型中不屬於同一簇的樣本對
c
d
: 表示在聚類模型和參考模型中都不屬於同一簇的樣本對這四個值的感覺其實跟混淆矩陣類似,都是用於判定聚類產生的簇的好壞。有了這四個的值,就可以求出以下的幾個效能度量的外部指標:
Jaccard 係數(Jaccard Coefficient, JC):
FM 指數(Fowlkes and Mallows Index, FMI):
Rand 指數(Rand Index, RI):
上述效能度量的結果都在[0, 1]之間,其值越大越好。
聚類效能度量內部指標,考慮聚類結果的簇劃分 ,定義:
DB 指數(Davies-Bouldin Index, DBI):
Dunn指數(Dunn Index, DI):