1. 程式人生 > >機器學習6---聚類簡述

機器學習6---聚類簡述

一、 聚類介紹

聚類屬於“無監督學習”的一種,即訓練樣本的標籤資訊在訓練過程中是不被使用的,這也是區別於分類的重要特徵。

從數學角度而言,聚類是將樣本集D=\left \{ { x_{1},x_{2}...x_{m} } \right \}劃分成k個不相交的“簇”,並且使用\lambda _{i}\epsilon \left \{ 1,2,...k \right \}作為第i個簇的標記(cluster label)。

聚類演算法可以單獨作為一個劃分資料的過程,也可以作為大樣本集的前期處理過程。

 

二、 效能度量

聚類演算法的效能度量主要為了評價這個聚類結果的好壞。

聚類效能度量分為兩類,第一類是外部指標:與某一個參考模型進行對比;第二類是內部指標:僅考察聚類結果。

1. 外部指標

對於資料集D,假定通過某一聚類演算法得到劃分為C={C1,C2....,Ck},參考模型給出的劃分為C*={C1*,C2*,...Ck*},\lambda

為簇標記,將樣本兩兩配對,可以得到以下4個量:

a=|SS|,SS={ (xi,xj) | \lambda_{i}=\lambda_{j},\lambda_{i}^{*}=\lambda_{j}^{*},i<j},包含在C中隸屬於相同簇且C*中也隸屬於相同簇。

b=|SD|,SD={ (xi,xj) | \lambda_{i}=\lambda_{j},\lambda_{i}^{*}\neq \lambda_{j}^{*},i<j},包含在C中隸屬於相同簇但C*中不隸屬於相同簇。

c=|DS|,DS={ (xi,xj) | \lambda_{i}\neq \lambda_{j},\lambda_{i}^{*}}{=} \lambda_{j}^{*},i<j},包含在C中不隸屬於相同簇但C*中隸屬於相同簇。

d=|DD|,DD={ (xi,xj) | \lambda_{i}\neq \lambda_{j},\lambda_{i}^{*}}\neq \lambda_{j}^{*},i<j},包含在C中不隸屬於相同簇且C*中不隸屬於相同簇。

a,b,c,d滿足a+b+c+d=m(m-1)/2,

根據以上4個量可以有以下三個外部指標,值越大說明兩個劃分約為相似:

Jaccard係數(JC)

JC=\frac{a}{a+b+c}

FM係數

FMI=\sqrt{\frac{a}{a+b}.\frac{a}{a+c}}

Rand係數(RI)

RI=\frac{2(a+b)}{m(m-1)}

2. 內部指標

直接考察聚類結果,即計算4個量:簇內樣本的平均距離avg(C_{j}),簇內樣本的最遠距離diam(C),兩個簇之間的最近距離d_{min}(C_i,C_j),兩個簇之間的中心距離d_{cen}(C_i,C_j)

從而得到以下兩個常用指標:

DB指標(DBI):

DBI=\frac{1}{k}\sum _{i=1}^{k}\underset{j\neq i}{max} (\frac{avg(C_{i})+avg(C_{j})}{d_{cen}(\mu _{i},\mu _{j})}),值越小,說明簇的分佈越為分離。

Dunn指標(DI):

DI=\underset{1\leq i\leq k}{min}\left \{ \underset{j\neq i}{min} (\frac{d_{min}(C_i,C_j)}{max_{1\leq l\leq k } diam(C_l)})\right \},值越大越好。

三、距離簡述

對於一個函式,距離應該滿足三個性質:非負性、同一性、對稱性、直遞性。

距離度量應該分為兩類:有序屬性的距離度量和無須屬性的距離度量。

1. 有序屬性的距離度量:有序屬性是指屬性有明確的“序”關係,例如{1,2,3},即1<2<3。此時的距離度量常採用閔科夫斯基距離,

dist_{mk}(x_{i},x_j)=(\sum^{n}_{u=1}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}

當p=2時,是歐式距離;當p=1時,是曼哈頓距離。

2. 無序屬性的距離度量:無序屬性是指無明確“序關係”的屬性,例如{麵包、牛奶、香蕉},此時沒辦法明確排序。常採用VDM度量距離。令m_{u,a}為屬性u上取值為a的樣本數,m_{u,a,i}表示在第i個樣本簇中u的取值為a的樣本個數,則屬性u上兩個離散值a,b之間的VDM距離為:

VDM_{p}(a,b)= \sum_{i=1}^k |\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|^p

混合屬性時可以使用閔科夫斯基距離和曼哈頓距離的結合,多重屬性時可以考慮“加權距離”。