機器學習6---聚類簡述
一、 聚類介紹
聚類屬於“無監督學習”的一種,即訓練樣本的標籤資訊在訓練過程中是不被使用的,這也是區別於分類的重要特徵。
從數學角度而言,聚類是將樣本集劃分成k個不相交的“簇”,並且使用作為第i個簇的標記(cluster label)。
聚類演算法可以單獨作為一個劃分資料的過程,也可以作為大樣本集的前期處理過程。
二、 效能度量
聚類演算法的效能度量主要為了評價這個聚類結果的好壞。
聚類效能度量分為兩類,第一類是外部指標:與某一個參考模型進行對比;第二類是內部指標:僅考察聚類結果。
1. 外部指標
對於資料集D,假定通過某一聚類演算法得到劃分為C={C1,C2....,Ck},參考模型給出的劃分為C*={C1*,C2*,...Ck*},
a=|SS|,SS={ (xi,xj) | },包含在C中隸屬於相同簇且C*中也隸屬於相同簇。
b=|SD|,SD={ (xi,xj) | },包含在C中隸屬於相同簇但C*中不隸屬於相同簇。
c=|DS|,DS={ (xi,xj) | },包含在C中不隸屬於相同簇但C*中隸屬於相同簇。
d=|DD|,DD={ (xi,xj) | },包含在C中不隸屬於相同簇且C*中不隸屬於相同簇。
a,b,c,d滿足a+b+c+d=m(m-1)/2,
根據以上4個量可以有以下三個外部指標,值越大說明兩個劃分約為相似:
Jaccard係數(JC)
FM係數
Rand係數(RI)
2. 內部指標
直接考察聚類結果,即計算4個量:簇內樣本的平均距離,簇內樣本的最遠距離,兩個簇之間的最近距離,兩個簇之間的中心距離。
從而得到以下兩個常用指標:
DB指標(DBI):
,值越小,說明簇的分佈越為分離。
Dunn指標(DI):
,值越大越好。
三、距離簡述
對於一個函式,距離應該滿足三個性質:非負性、同一性、對稱性、直遞性。
距離度量應該分為兩類:有序屬性的距離度量和無須屬性的距離度量。
1. 有序屬性的距離度量:有序屬性是指屬性有明確的“序”關係,例如{1,2,3},即1<2<3。此時的距離度量常採用閔科夫斯基距離,
當p=2時,是歐式距離;當p=1時,是曼哈頓距離。
2. 無序屬性的距離度量:無序屬性是指無明確“序關係”的屬性,例如{麵包、牛奶、香蕉},此時沒辦法明確排序。常採用VDM度量距離。令為屬性u上取值為a的樣本數,表示在第i個樣本簇中u的取值為a的樣本個數,則屬性u上兩個離散值a,b之間的VDM距離為:
混合屬性時可以使用閔科夫斯基距離和曼哈頓距離的結合,多重屬性時可以考慮“加權距離”。