聚類模型-密度聚類-DBSCAN
阿新 • • 發佈:2018-12-10
聚類模型
1、層次聚類
2、原型聚類-K-means
3、模型聚類-GMM
4、EM演算法-LDA主題模型
5、密度聚類-DBSCAN
6、圖聚類-譜聚類
五、密度聚類-DBSCAN
DBSCAN的類表示是一簇密度可達的樣本,相似性度量定義為密度可達,密度可達即為一類,屬於硬劃分。密度聚類是一種基於密度的聚類,其根據樣本的空間分佈關係進行聚類。一般來講,用帶參的模型來定義樣本的分佈可以看作是帶參的密度估計,比如高斯混合模型,高斯判別分析;用無參的模型來描述樣本的分佈稱為無參密度估計,比如直方圖,核密度估計,山峰聚類,DBSCAN,meanshift。
假設我的樣本集是,在DBSCAN中為了描述樣本分佈的關係,定義瞭如下幾個概念:
1) -鄰域:對於,其-鄰域包含樣本集中與的距離不大於的子樣本集,即 這個子樣本集的個數記為
2)核心物件:對於任一樣本,如果其-鄰域對應的 至少包含個樣本,即如果,則是核心物件
3)密度直達:如果位於的-鄰域中,且是核心物件,則稱由密度直達。注意反之不一定成立,即此時不能說由密度直達, 除非且也是核心物件。
4)密度可達:如果由密度直達,且由密度直達,那麼由密度可達。密度可達滿足封閉性
其中密度可達是相似性度量,由於密度可達具有封閉性,所以簇內的所有點與簇內的核心均密度可達,否則即不是一個簇,所以密度可達可以對樣本進行聚類,其中密度可達涉及的引數有和和距離度量 。
5)噪聲點:對於非核心點和不能由核心點密度可達的點即為噪聲點
DBSCAN演算法流程:
輸入:樣本集,鄰域引數, 樣本距離度量方式
輸出