密度聚類和層次聚類

密度聚類

K-Means演算法、K-Means++ 演算法和Mean Shift 演算法都是基於距離的聚類演算法，基於距離的聚類演算法的聚類結果都是球狀的簇
當資料集中的聚類結果是非球狀結構是，基於距離的聚類效果並不好

基於密度的聚類演算法能夠很好的處理非球狀結構的資料，與基於距離的聚類演算法不同的是，基於密度的聚類演算法可以發現任意形狀的簇類。

在基於密度的聚類演算法中，通過在資料集中尋找別低密度區域分離的高密度區域，將分離出來的高密度區域作為一個獨立的類別。

密度聚類演算法假設聚類結構能通過樣本分佈的緊密程度確定。通常情形下，密度聚類演算法從樣本密度的角度來考察樣本之間的可連線性，並基於可連線樣本不斷擴充套件聚類簇以獲得最終的聚類結果。

DBSCAN是一種典型的基於密度的聚類演算法。，它基於一組“鄰域引數(ε,MinPts)來刻畫樣本分佈的緊密程度。
給定資料集 $D = {x_{1}, x$

2 … … x m } D=\{x_1,x_2……x_m\}

D = {x_{1}, x_{2} \dots \dots x_{m}}

,定義下面幾個概念：

1）ε鄰域：對 $x_j∈D$ ,其ε鄰域包含資料集D中與 $x_j$ 的距離不大於ε的樣本，即
$N_ε(x_j)=\{x_i∈D|dist(x_i,x_j)≤ε\}$
2) 核心物件：若 $x_j$ 的ε鄰域至少包含MinPts個樣本，即 $|N_ε(x_j)|≥MinPts$ ,則 $x_j$ 是一個核心物件
3）邊界物件：若 $x_j$ 的ε鄰域內的樣本個數少於MinPts，但是 $x_j$ 落在其他核心物件的ε鄰域內，則 $x_j$ 為邊界物件
4)噪音物件：既不是核心物件也不是邊界物件的樣本點稱作噪音物件
5)密度直達：若 $x_j$ 位於 $x_i$ 的ε鄰域中，且 $x_i$ 是核心物件，則稱 $x_j$ 由 $x_i$ 密度直達。
6）密度可達：對 $x_i,x_j$ ,若存在樣本序列 $p_1,p_2……p_n$ ,其中 $p_1=x_i,p_n=x_j且p_{i+1}由p_i密度直達，則稱x_j由x_i密度可達$
7）密度相連：對 $x_i和x_j$ ,若存在 $x_k$ 使得 $x_i與x_j均由x_k密度可達，則稱x_i,x_j密度相連$
在這裡插入圖片描述
MinPts=3:虛線顯示出ε鄰域， $x_1$ 是核心物件， $x_2由x_1密度直達，x_3由x_1密度可達，x_3與x_4密度相連$
基於這些概念，DBSCAN將簇定義為：由密度可達關係匯出的最大的密度相連樣本集合。
形式化的說，給定鄰域引數(ε,MinPts),簇C時滿足下列性質的非空樣本集：

1）連線性： $x_i∈C,x_j∈C=>x_i,x_j密度相連$
2）最大性： $x_i∈C，x_j由x_i密度可達=>x_j∈C$

密度聚類和層次聚類

密度聚類

密度聚類和層次聚類

聚類：層次聚類、基於劃分的聚類（k-means）、基於密度的聚類、基於模型的聚類

機器學習總結（十）：常用聚類演算法（Kmeans、密度聚類、層次聚類）及常見問題

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

聚類及相關演算法二（原型聚類、密度聚類、層次聚類）

聚類分析——層次聚類

機器學習--聚類系列--層次聚類

聚類模型-層次聚類

機器學習（十六）無監督學習、聚類和KMeans聚類

聚類分析層次聚類及k-means演算法

聚類系列-層次聚類（Hierarchical Clustering）

機器學習筆記六：K-Means聚類，層次聚類，譜聚類

Kmeans聚類與層次聚類

聚類演算法---層次聚類

5.2、聚類之層次聚類例項

聚類分析（一）：K均值聚類與層次聚類

【機器學習】筆記之聚類Cluster—— 層次聚類 Hierarchical clustering

靜態類和非靜態類

java Date日期類和SimpleDateFormat日期類格式

Java基礎18-日期類和日歷類

密度聚類和層次聚類

密度聚類

相關推薦