1. 程式人生 > >聚類模型-密度聚類-DBSCAN

聚類模型-密度聚類-DBSCAN

聚類模型

1、層次聚類
2、原型聚類-K-means
3、模型聚類-GMM
4、EM演算法-LDA主題模型
5、密度聚類-DBSCAN
6、圖聚類-譜聚類

五、密度聚類-DBSCAN

DBSCAN的類表示是一簇密度可達的樣本,相似性度量定義為密度可達,密度可達即為一類,屬於硬劃分。密度聚類是一種基於密度的聚類,其根據樣本的空間分佈關係進行聚類。一般來講,用帶參的模型來定義樣本的分佈可以看作是帶參的密度估計,比如高斯混合模型,高斯判別分析;用無參的模型來描述樣本的分佈稱為無參密度估計,比如直方圖,核密度估計,山峰聚類,DBSCAN,meanshift。

假設我的樣本集是(x1,x2,...,xm),在DBSCAN中為了描述樣本分佈的關係,定義瞭如下幾個概念:

1) ϵ-鄰域:對於xjD,其ϵ-鄰域包含樣本集D中與xj的距離不大於ϵ的子樣本集,即Nϵ(xj)={xiD|distance(xi,xj)ϵ} 這個子樣本集的個數記為|N(xj)| 

2)核心物件:對於任一樣本xjD,如果其ϵ-鄰域對應的N(xj) 至少包含MinPts個樣本,即如果

|N(xj)|MinPts,則xj是核心物件

3)密度直達:如果xi位於xjϵ-鄰域中,且xj是核心物件,則稱xixj密度直達。注意反之不一定成立,即此時不能說xjxi密度直達, 除非且xi也是核心物件。

4)密度可達:如果xixj密度直達,且xjxk密度直達,那麼xixk密度可達。密度可達滿足封閉性

其中密度可達是相似性度量,由於密度可達具有封閉性,所以簇內的所有點與簇內的核心均密度可達,否則即不是一個簇,所以密度可達可以對樣本進行聚類,其中密度可達涉及的引數有ϵMinPts和距離度量

distance(xi,xj)

5)噪聲點:對於非核心點和不能由核心點密度可達的點即為噪聲點

DBSCAN演算法流程:

輸入:樣本集D=(x1,x2,...,xm),鄰域引數(ϵ,MinPts), 樣本距離度量方式

輸出