聚類模型-密度聚類-DBSCAN

阿新 • • 發佈：2018-12-10

聚類模型

1、層次聚類

2、原型聚類-K-means

3、模型聚類-GMM

4、EM演算法-LDA主題模型

5、密度聚類-DBSCAN

6、圖聚類-譜聚類

五、密度聚類-DBSCAN

DBSCAN的類表示是一簇密度可達的樣本，相似性度量定義為密度可達，密度可達即為一類，屬於硬劃分。密度聚類是一種基於密度的聚類，其根據樣本的空間分佈關係進行聚類。一般來講，用帶參的模型來定義樣本的分佈可以看作是帶參的密度估計，比如高斯混合模型，高斯判別分析；用無參的模型來描述樣本的分佈稱為無參密度估計，比如直方圖，核密度估計，山峰聚類，DBSCAN，meanshift。

假設我的樣本集是 $(x_{1}, x_{2}, . . ., x_{m})$ ，在DBSCAN中為了描述樣本分佈的關係，定義瞭如下幾個概念：

1） $ϵ$ -鄰域：對於 $x_{j} \in D$ ，其 $ϵ$ -鄰域包含樣本集 $D$ 中與 $x_{j}$ 的距離不大於 $ϵ$ 的子樣本集，即 $N_{ϵ} (x_{j}) = {x_{i} \in D | d i s t a n c e (x_{i}, x_{j}) \leq ϵ}$ 這個子樣本集的個數記為 $| N \in (x_{j}) |$ 　

2）核心物件：對於任一樣本 $x_{j} \in D$ ，如果其 $ϵ$ -鄰域對應的 $N \in (x_{j})$ 至少包含 $M i n P t s$ 個樣本，即如果 $| N \in (x_{j}) | \geq M i n P t s$

| N \in (x_{j}) | \geq M i n P t s

，則

x_{j}

是核心物件

3）密度直達：如果 $x_{i}$ 位於 $x_{j}$ 的 $ϵ$ -鄰域中，且 $x_{j}$ 是核心物件，則稱 $x_{i}$ 由 $x_{j}$ 密度直達。注意反之不一定成立，即此時不能說 $x_{j}$ 由 $x_{i}$ 密度直達, 除非且 $x_{i}$ 也是核心物件。

4）密度可達：如果 $x_{i}$ 由 $x_{j}$ 密度直達，且 $x_{j}$ 由 $x_{k}$ 密度直達，那麼 $x_{i}$ 由 $x_{k}$ 密度可達。密度可達滿足封閉性

其中密度可達是相似性度量，由於密度可達具有封閉性，所以簇內的所有點與簇內的核心均密度可達，否則即不是一個簇，所以密度可達可以對樣本進行聚類，其中密度可達涉及的引數有 $ϵ$ 和 $M i n P t s$ 和距離度量 $d i s t a n c e (x_{i}, x_{j})$

d i s t a n c e (x_{i}, x_{j})

。

5）噪聲點：對於非核心點和不能由核心點密度可達的點即為噪聲點

DBSCAN演算法流程：

輸入：樣本集 $D = (x_{1}, x_{2}, . . ., x_{m})$ ，鄰域引數 $(ϵ, M i n P t s)$ ，樣本距離度量方式

輸出

聚類模型-密度聚類-DBSCAN

聚類模型

1、層次聚類

2、原型聚類-K-means

3、模型聚類-GMM

4、EM演算法-LDA主題模型

5、密度聚類-DBSCAN

6、圖聚類-譜聚類

五、密度聚類-DBSCAN

聚類模型-密度聚類-DBSCAN

聚類模型-層次聚類

聚類及相關演算法二（原型聚類、密度聚類、層次聚類）

sklearn聚類模型：基於密度的DBSCAN；基於混合高斯模型的GMM

吳裕雄 python 機器學習——密度聚類DBSCAN模型

聚類：層次聚類、基於劃分的聚類（k-means）、基於密度的聚類、基於模型的聚類

DBSCAN詳解（密度聚類演算法開篇）

基於密度聚類DBSCAN

密度聚類（DBSCAN）

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

DBSCAN密度聚類演算法

DBSCAN(基於高密度聚類的)演算法

聚類——密度聚類DBSCAN

聚類模型性能評價指標

ML: 聚類算法R包 - 密度聚類

【機器學習】---密度聚類從初識到應用

自然語言處理--LDA主題聚類模型

聚類模型-模型聚類-高斯混合

異端審判器！一個泛用型文字聚類模型的實現（1）

使用sklearn估計器構建K-Means聚類模型

聚類模型-密度聚類-DBSCAN

聚類模型

1、層次聚類

2、原型聚類-K-means

3、模型聚類-GMM

4、EM演算法-LDA主題模型

5、密度聚類-DBSCAN

6、圖聚類-譜聚類

五、密度聚類-DBSCAN

相關推薦