聚類方法總結
阿新 • • 發佈:2021-12-01
1.基於劃分
k-means
優點:快速,簡單,高效
缺點:對異常值很敏感,並且只能尋找球形的聚類
k-medoids
優點:克服k-均值法的異常值敏感性問題
缺點:計算較為複雜,耗費的計算機時間比K-means多
2.基於層次
分為兩種:
劃分方法(自上而下) 聚集方法(自下而上)
大部分的分層方法是聚集的
代表演算法:BIRCH、CURE、ROCK和CHAMELEON
3.基於密度
優點: 能夠發現任意形狀的簇,克服了基於劃分聚類的缺點
代表演算法:DBSCAN,OPTICS,PreDeCon
OPTICS是DBSCAN的擴充套件,對使用者定義的引數不太敏感
PreDeCon是DBSCAN的擴充套件,對高維資料集效果更好
4.基於網格
基於網格的聚類方法將資料空間量化為多解析度網格結構。
網格結構包含許多單元,每個單元都有一個子空間,並在子空間中儲存資料物件的摘要資訊。
通過處理這種資料結構,聚類方法通常是快速的,並且與資料集的大小無關。
代表演算法:STINGWaveCluster(不適合高維資料)