1. 程式人生 > 其它 >聚類方法總結

聚類方法總結

1.基於劃分

k-means

優點:快速,簡單,高效

缺點:對異常值很敏感,並且只能尋找球形的聚類

k-medoids

優點:克服k-均值法的異常值敏感性問題

缺點:計算較為複雜,耗費的計算機時間比K-means多

2.基於層次

分為兩種:

劃分方法(自上而下) 聚集方法(自下而上)

大部分的分層方法是聚集的

代表演算法:BIRCH、CURE、ROCK和CHAMELEON

3.基於密度

優點: 能夠發現任意形狀的簇,克服了基於劃分聚類的缺點

代表演算法:DBSCAN,OPTICS,PreDeCon

OPTICS是DBSCAN的擴充套件,對使用者定義的引數不太敏感

PreDeCon是DBSCAN的擴充套件,對高維資料集效果更好

4.基於網格

基於網格的聚類方法將資料空間量化為多解析度網格結構。

網格結構包含許多單元,每個單元都有一個子空間,並在子空間中儲存資料物件的摘要資訊。

通過處理這種資料結構,聚類方法通常是快速的,並且與資料集的大小無關。

代表演算法:STINGWaveCluster(不適合高維資料)